Ética para A... I.

27/7/2024
AUTOR
Colegio de matemáticas Bourbaki

A menudo he leído sobre los peligros de la inteligencia artificial para los seres humanos y en la gran mayoría de los casos estamos de acuerdo con estas consideraciones pues es evidente que las variables del mundo real son demasiadas para cualquier algoritmo de optimización. No estamos hablando únicamente de las vitales como en Odisea 2001, otras más sutiles como la privacidad, la igualdad de oportunidades o la paridad de género deben ser tomadas en cuenta en cualquier aplicación de la Inteligencia Artificial y a menudo es complicado hacerlo.

Habiendo aceptado los enormes retos que enfrenta la IA, nos gustaría mencionar algunas de las hipótesis positivas respecto a consideraciones éticas que hace la inteligencia artificial encarnada en los algoritmos de machine learning que se entrenan con bases de datos reales.

Este texto no pretende justificar el uso de la inteligencia artificial de manera discriminada o descuidada sino señalar algunas de las preocupaciones que no deberían de tener en cuenta los practicioners de la IA.

Independencia de los registros

Existen muy pocos algoritmos de IA que no suponen la independencia en los registros con los que se entrenan los modelos matemáticos. Esta es una hipótesis importante pues nos permite mitigar el sesgo de ciertos grupos favorecidos en una base de datos.

A menudo esta hipótesis se enunciará respecto a la relación estadística de los errores de un modelo sin embargo al elegir una familia de funciones esto será equivalente a suponer que nuestras muestras son irrelacionadas.

Pensemos por ejemplo en el caso de un problema de asignación de créditos como el que enfrentaría un banco, nos gustaría que las características de un registro así como su etiqueta no influyan en el resto de registros que nos encontraremos en el conjunto de nuestros datos.

Es muy probable que si la asignación de créditos se hiciera de manera manual y los responsables se encuentren muchos registros durante un periodo de tiempo de un grupo demográfico, aparecerá un sesgo sobre esa población. Cuando se utilizan algoritmos como SGD o Random Forest, el muestreo aleatorio durante el conjunto de entrenamiento garantiza que este tipo de errores se pueden evitar.

Independencia en las variables

Aunque los modelos avanzados de redes neuronales profundas supondrán que algunas de las variables explicativas están correlacionadas, la gran mayoría de los modelos sencillos de machine learning desde regresiones lineales hasta complicados modelos de boosting supondrán que las variables explicativas no están correlacionadas. Esta hipótesis tiene una gran ventaja al tomar en cuenta consideraciones éticas pues no existirá una preferencia particular sobre las características de nuestra población.

Pensemos por ejemplo en un problema de pricing en el que nos gustaría que el error de aproximación en la variable objetivo sea el mínimo más allá de alguna preferencia sobre cierta variable explicativa.

Todos los científicos de datos que hayan realizado un análisis exploratorio básico reconocerán en el cálculo de la matriz de correlación este requisito estadístico de los modelos básicos de machine learning.

¿Dónde aprender Machine Learning?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle machine learning y sus aplicaciones . Compartimos con ustedes algunos de nuestros temarios.