Interpretabilidad post hoc (memorias del Data Fest BBVA 2022)
La semana anterior tuvimos el honor de participar en el Advanced Analytics Data Fest de BBVA 2022, un evento único en su tipo. El fundador del Colegio de Matemáticas Bourbaki Alfonso Ruiz dio una plática titulada Perspectives on Interpretability. En esta charla presentó las ideas generales sobre la interpretabilidad de los modelos entrenados de AI, así como su importancia durante el proceso de evaluación e implementación.
En la charla se presentaron tres temas fundamentales sobre la interpretabilidad post hoc de los modelos matemáticos optimizados:
- Ordenamiento de (familias de) características
- Traducción de variables latentes
- Interpretaciones locales
También dos avances recientes y prometedores sobre estas técnicas:
- Testing with Concept Activation Vectors
- Adaptive wavelet distillation
Estamos profundamente agradecidos con Marco Bonilla por la invitación a este maravilloso evento y en general con BBVA por su interés y compromiso con el desarrollo de la Ciencia de Datos. También tuvimos el gusto de escuchar la charla de Xavier Amatriain quien dio una formidable exposición sobre su trabajo en Netflix, Quora, LinkedIn y su compañía Curai Health. El evento fue fabulosamente organizado por Sofía Castañeda, ALEJANDRO PALMA PONCE y Michel Meléndez Rodríguez.
Ordenamiento de (familias de) características
El problema de la interpretabilidad es muy importante en machine learning desde un punto de vista práctico pues está relacionado con la herencia de modelos entre científicos de datos, la auditoría o simplemente la evaluación.
Uno de los objetivos más importantes de la interpretabilidad es la capacidad de comparar la importancia entre dos variables X, X', más aún es muy importante poder comparar la importancia entre dos familia de variables F, F'. Los árboles de decisión, los modelos lineales y algunos tests estadísticos son dos técnicas comúnmente utilizados para esta labor.
Traduciendo variables latentes
La traducción del significado de una variable explicativa X está definida en el caso de los modelos lineales por el peso obtenido durante el entrenamiento, sin embargo para el caso de las variables latentes esta interpretación puede ser muy complicada.
Los modelos como Latent Dirichlet Allocation, Word2vec y en algunos casos PCA pueden presentar variables latentes interpretables, durante la charla presentamos algunos casos exitosos de esta interpretación.
Interpretaciones locales
También presentamos el reto que representa interpretar la evaluación de algún modelo en cierto registro particular. Notemos que esto es distinto a comprender el significado o la importancia de una variable para el modelo entrenado pues una predicción particular podría diferir de la generalidad.
Una de las técnicas más exitosas para la intepretabilidad local es Local Interpretable Model Agnostic la cual está exitosamente implementada en Python. Recomendamos al lector revisar esta documentación y algunos de los casos de éxito.
Dos avances recientes
Recientemente se ha investigado sobre métodos que permitan generalizar las técnicas anteriores, el caso de las redes neuronales profundas representa un reto importante y el trabajo de Been Kim es uno de los más prometedores.
Otro acercamiento muy interesante la construcción de un modelo interpretable es mediante la construcción de una wavelet o convolución de fourier que por un lado capture correctamente la eficacia de un modelo entrenado que al mismo tiempo penalice en el dominio de la transformación el uso de demasiados parámetros.
Notas
Compartimos con nuestra comunidad una porción parcial de las notas que los analistas de BBVA recibieron después de la charla con detalles y ejercicios con código.
Oferta académica
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).