17 ecuaciones de pérdida que cambiaron la inteligencia artificial
Alfonso Ruiz
Las funciones de error son una herramienta indispensable para los científicos de datos pues permiten a los algoritmos aprender una función utilizando los patrones de una base de datos. Para que una función pueda considerarse una función de error debe de cumplir algunas características muy importantes relacionadas con la diferenciabilidad, la convexidad y su complicación computacional, en algunos casos estos requisitos pueden hacerse menos estrictos sin embargo es indispensable que por lo menos se acerquen un poco.
En este texto hablaremos sobre 17 famosas ecuaciones que describen las funciones de pérdida tan utilizadas en la Inteligencia Artificial. Pretendemos que nuestra comunidad pueda recorrer de una manera más amigable el pantanoso mundo de estas funciones.
Hace unos años e inspirados en el espectacular libro "In Pursuit of the Unknown: 17 Equations That Changed the World" de Ian Stewart, lanzamos nuestros cursos propedéuticos:
- 17 ecuaciones que cambiaron Machine Learning
- 17 ecuaciones que cambiaron los mercados financieros.
La intención de estos cursos es ayudarles a los estudiantes a adentrarse en las matemáticas involucradas en Machine Learning, los Mercados Financieros y en este caso en la Inteligencia Artificial. Pronto nuestros alumnos recibirán el acceso a un curso sobre las 17 ecuaciones que cambiaron la Inteligencia Artificial.
1. Error de Hinge
Mide qué tan bien está funcionando un clasificador, especialmente en el contexto de Máquinas de Vectores de Soporte (SVM). Penaliza las predicciones que están en el lado equivocado del margen o demasiado cerca del límite de decisión. Comúnmente usado para reducir el sobre-ajuste de un problema de clasificación.
2. Error de Entropía Cruzada Binaria
Mide la diferencia entre las probabilidades predichas y las etiquetas binarias reales (0 o 1). La fórmula aplica el logaritmo negativo a la probabilidad predicha para la clase verdadera. Usado en tareas de clasificación binaria como detección de spam, diagnóstico de enfermedades y cualquier tarea donde la salida sea binaria.
3. Error Cuadrático Medio
Calcula la diferencia promedio al cuadrado entre los valores predichos y los valores reales. Esta función penaliza los errores más grandes de forma más severa que los más pequeños. Ampliamente usado en tareas de regresión, como predecir valores continuos (por ejemplo, precios de casas, precios de acciones, etc.).
4. Error de regularización Ridge
Agrega una penalización proporcional a la suma de los coeficientes al cuadrado en la función de pérdida. Esto fomenta que el modelo utilice coeficientes más pequeños, ayudando a prevenir el sobreajuste. Usado en modelos de regresión lineal para prevenir el sobreajuste al reducir los coeficientes. También es común en redes neuronales para regularización.
5. Error de regularización Lasso
Agrega una penalización proporcional al valor absoluto de los coeficientes, promoviendo la dispersión (es decir, algunos coeficientes se hacen exactamente cero). Usado en modelos de regresión para realizar selección de características al reducir a cero los coeficientes de las características irrelevantes. También puede ser utilizado para regularización en aprendizaje profundo.
6. Error de Huber Loss
Combina lo mejor del MSE y el error absoluto usando pérdida cuadrática para errores pequeños y pérdida absoluta para errores grandes, lo que lo hace más robusto frente a los valores atípicos. Comúnmente usado en problemas de regresión donde se desea minimizar el efecto de los valores atípicos mientras se sigue penalizando los grandes errores.
7. Error de Kullback-Leibler
Mide cómo una distribución de probabilidad se desvía de una segunda distribución de probabilidad esperada. En aprendizaje profundo, cuantifica cuánto difiere la distribución predicha de la distribución real. Usado en tareas como modelos generativos y en tareas de clasificación cuando se desea modelar distribuciones de probabilidad (por ejemplo, clasificación multiclase).
8. Error de Entropía Cruzada Categórica
Una extensión de la entropía cruzada binaria para tareas de clasificación multiclase. Calcula la pérdida logarítmica para cada clase y promedia el resultado, comparando las distribuciones de probabilidad predicha con las clases reales. Usado en tareas de clasificación multiclase, como clasificación de imágenes o modelado de lenguaje, donde la salida es una distribución de probabilidad sobre varias clases.
9. Error de verosimilitud logaríticmica negativa
Un muy similar a la entropía cruzada, usado en modelos probabilísticos, midiendo el logaritmo negativo de las probabilidades predichas asignadas a las clases verdaderas. Usado comúnmente en tareas donde el modelo produce probabilidades, como en clasificación o en modelos como regresión logística y regresión softmax.
10. Error de Similitud del Coseno
Mide el coseno del ángulo entre dos vectores, usado para evaluar qué tan similares son dos vectores, independientemente de su magnitud. Usado en tareas como similitud de documentos, sistemas de recomendación y procesamiento de lenguaje natural (por ejemplo, embeddings de palabras).
11. Error de rankeo del margen
Mide la diferencia entre dos valores predichos, penalizando las predicciones que no respetan un margen predefinido. Se usa a menudo cuando la tarea requiere clasificación o ranking. Usado en tareas de ranking, como sistemas de recomendación o ranking de resultados de búsqueda, donde el orden de las predicciones es importante.
12. Error de riesgo de Cox
Una función de pérdida usada en análisis de supervivencia, modelando el tiempo hasta que ocurra un evento (como muerte, falla, etc.). El error se basa en el modelo de riesgos proporcionales de Cox. Común en el ámbito de la salud y las finanzas para modelar tiempos de supervivencia y predicción de riesgos.
13. Error de cuantil
Mide la diferencia entre los valores predichos y los valores reales, pero aplica una función de cuantil. Esto permite una pérdida asimétrica (penalizando de forma diferente las sobrepredicciones y las subpredicciones). Usado en regresión cuantíl, que es útil cuando se desea predecir cantiles específicos (por ejemplo, la mediana o el percentil 90) en lugar de predicciones medias.
14. Error exponencial
Este error crece exponencialmente para errores más grandes, dándole una penalización muy pronunciada a las grandes diferencias entre los valores predichos y reales. Usado en algoritmos donde el algoritmo pone más enfoque en los ejemplos difíciles de clasificar, penalizando exponencialmente los ejemplos mal clasificados.
15. Error de Tversky
Una versión generalizada del índice de Jaccard, utilizado para medir la similitud entre dos conjuntos o resultados binarios. Es particularmente útil cuando existe desequilibrio de clases, permitiendo ponderar de manera diferente los falsos positivos y falsos negativos. Usado en problemas de clasificación binaria desequilibrada, como segmentación de imágenes médicas (por ejemplo, detección de tumores donde predominan los ejemplos negativos).
16. Error de distancia Euclidiana
Mide la distancia en línea recta entre dos puntos en el espacio euclidiano. Común en aprendizaje no supervisado (por ejemplo, k-means clustering) y aprendizaje de métricas (por ejemplo, aprendizaje de una métrica de distancia para la recuperación de objetos similares).
17. Error de Wasserstein Loss
Mide la diferencia entre dos distribuciones de probabilidad usando la distancia de Wasserstein (distancia del "transportista de tierra"), que se basa en la cantidad mínima de trabajo requerida para transformar una distribución en otra. Usado en modelos generativos, especialmente en GANs de Wasserstein (Generative Adversarial Networks), para entrenar modelos más estables en comparación con los GANs tradicionales.
¿Dónde aprender más?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas de los distintos aspectos de la Ciencia de Datos y la Inteligencia Artificial. Todos los perfiles y necesidades son bienvenidos. Compartimos con ustedes algunos de nuestros temarios de cursos por iniciar:
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).