Equidad algorítmica: un enfoque lipschitziano

7/7/2022
AUTOR
Colegio de matemáticas Bourbaki

Los modelos matemáticos influyen diariamente en la vida de la mayor parte de la humanidad, es muy posible que el restaurante al que vayamos en nuestro cumpleaños o incluso el destino de nuestras próximas vacaciones estén muy relacionados con la predicción de una función matemática sobre algunas de nuestras características.

Por supuesto que gracias a estos modelos tanto los individuos como las compañías han obtenido ventajas incalculables y es imposible imaginar nuestra cotidianidad o la mayoría de las industrias sin el uso de modelos matemáticos que nos ayuden en la toma de mejores decisiones. Sin negar esta premisa podemos estar de acuerdo con el riesgo que implica utilizar modelos matemáticos que podrían estar sesgados y afectar lo que comúnmente conocemos como Justicia Social.

No alt text provided for this image

En esta nueva edición de nuestro boletín Bourbakisme vamos a exponer desde un punto de vista matemático uno de los posibles enfoques para definir la Equidad Algorítmica, para ello utilizaremos un concepto terriblemente importante en matemáticas, a saber las funciones lipschitzianas.

Hacia una equidad algorítmica

Es muy importante mencionar que existen muchos acercamientos distintos para definir lo que significa la equidad algorítmica, cada uno de ellos se concentra en distintas problemáticas que podrían enfrentar los modelos entrenados con datos.

No alt text provided for this image

Debido a que es un área que ha crecido enormemente en los últimos años sería una tarea muy compleja describir el estado del arte o intentar abarcar una gran parte de los distintos acercamientos. Por ello solo nos concentraremos en dos posibles acercamientos:

  1. La equidad individual
  2. La equidad grupal

Estos dos conceptos aparecen en un trabajo publicado en el 2012 titulado Fairness Through Awareness.

Un ejemplo de juguete

Un buen ejemplo es un excelente compañero cuando deseamos aprender algo: supongamos que nuestra población total son todas las personas que trabajan dentro de una compañía la cual utiliza un modelo matemático para decidir quiénes de sus empleados tomarán una capacitación en el Colegio de Matemáticas Bourbaki, idealmente nos gustaría que el modelo sea capaz de elegir correctamente quiénes aprovecharán mejor el curso y así optimizar los recursos.

No alt text provided for this image

Dos problemas típicos a los que se enfrenta la equidad algorítmica en este caso concreto son:

  • ¿Cómo garantizar que el modelo será justo con cada uno de los trabajadores de la empresa? Concretamente nos gustaría prevenir por ejemplo que dos desarrolladores de software con niveles de estudio similares, desempeño y antigüedad parecidos tengan las mismas posibilidades de estudiar en Bourbaki. Esto es lo que se conoce como equidad individual.
  • ¿Cómo garantizar que el modelo será justo con distintas áreas dentro de la empresa? Esto significa por ejemplo que el modelo no debería enviar a capacitación a un mayor porcentaje de miembros del equipo Business Intelligence (BI) sobre el equipo de desarrollo de software (DEV). Esto es lo que se conoce como equidad grupal.

Rudolf Lipschitz

Ahora que hemos fijado las dos problemáticas concretas que deseamos solucionar podemos exponer dos definiciones matemáticas que permiten formalizar estos problemas. Para tratar el caso de la equidad grupal vamos a utilizar un concepto introducido por el matemático Rudolf Lipschitz.

No alt text provided for this image

Antes de comenzar es necesario fijar algunas notaciones:

  • A la población completa de empleados de la compañía le llamaremos S y a un individuo cualquiera lo llamaremos X.
  • Al modelo matemático entrenado con una parte de S lo llamaremos F.
  • A la predicción que hace F sobre un empleado X la llamaremos F(X), esta puede ser igual a Sí o No. Es decir F(X) = S cuando sugiere que X estudie en Bourbaki y F(X) = N cuando le sugiere a X lo contrario.

La definición de funciones Lipschitz requiere utilizar el concepto de distancia tanto entre los individuos como entre las predicciones. Para el caso concreto del que estamos hablando, la distancia entre las predicciones solo puede tomar dos valores pues o dos predicciones son la misma (Sí o No) o son contrarias (una es Sí y la otra es No), cuando las predicciones para dos personas, F(X), F(X') sean iguales diremos que su distancia es cero y en el otro caso diremos que es infinita.

Por el otro lado, definir matemáticamente que dos individuos X, X' son o no similares es un problema bastante complicado y por lo tanto existen numerosos acercamientos. Entre los más conocidos están las distancias euclidiana, Manhattan, norma infinito, etc. Recomendamos a los estudiantes interesados en estos temas cursar nuestro programa Las Matemáticas para la Ciencia de Datos. Por el momento solo diremos que dos personas son similares haciendo referencia a la idea intuitiva sin embargo esto es bien posible formalizarlo.

Ahora estamos listos para la definición de un modelo equitativo individualmente:

El modelo F es Lipschitz (o equitativo individualmente) cuando a empleados similares les hace la misma recomendación sobre inscribirse o no a Bourbaki.

Uno de los resultados más importantes en el artículo Fairness Through Awareness es que el problema de la equidad individual desde el punto de vista de la construcción del modelo F, solo agrega un problema de programación lineal al entrenamiento.

Por el otro lado un modelo equitativo grupalmente es el que satisface:

El modelo F satisface statistical parity cuando cualesquiera dos grupos dentro de S (por ejemplo BI o DEV) tienen la misma probabilidad de que sus miembros se inscriban a Bourbaki.

Non-free luch theorem

Otra de las observaciones en el artículo que mencionamos es que desafortunadamente la equidad grupal no implica lógicamente a la equidad individual.

El ejemplo típico es el siguiente, imaginemos que tanto en el equipo de desarrollo DEV como en el grupo BI, la mitad de las personas programan en Python y la otra mitad no lo hace. Supongamos maliciosamente que el modelo F hace una predicción de acuerdo a las siguientes reglas:

  1. Si X programa en Python y está en DEV entonces lo mando a capacitarse a Bourbaki.
  2. Si X no programa en Python y está en BI entonces lo mando a capacitarse a Bourbaki.

Gracias a la suposición que hicimos, para estos dos grupos el modelo satisface equidad grupal sin embargo es difícil pensar que satisface la condición Lipchitz pues podrían ser injusto al comparar un desarrollador y un analista con capacidades similares.

Existe una versión general de un resultado de imposibilidad para que un modelo sea verdaderamente equitativo, les recomendamos el artículo Inherent Trade-Offs in the Fair Determination of Risk Scores.

Ruta a través de la Ciencia de Datos

No alt text provided for this image

Quienes deseen conocer más sobre los cursos que ofrece el Colegio de Matemáticas Bourbaki, por ejemplo los temarios, cuál es el curso ideal para sus necesidades o las ventajas de estudiar con nosotros los invitamos a leer nuestra entrada sobre lo que llamamos Ruta a través de la ciencia de datos. Los cursos que la componen son:

Oferta académica