Lo mejor del 2024 en AI (7 trabajos formidables)

19/12/2024
AUTOR
Colegio de matemáticas Bourbaki

Nos da mucho gusto anunciar en el Colegio de Matemáticas Bourbaki nuestra lista con 7 de los trabajos más significativos sobre Inteligencia Artificial ya sea en aspectos de investigación o aplicaciones notables que en muchos casos han implicado una mejora a técnicas anteriores.

La inteligencia artificial se ha consagrado durante el 2024 como uno de los motores más poderosos en la generación de conocimiento y en la solución de problemas industriales y en negocios enteros. Desde su concepción a inicios del siglo pasado en los trabajos de Alan Turing, nunca había sido utilizada por un porcentaje tan amplio de la población. Además del amplio público la IA ha vencido rotundamente a la inteligencia natural en numerosos aspectos, pensemos por ejemplo cómo ha transformado rotundamente juegos como el Ajedrez en el que los grandes maestros no tienen ninguna oportunidad sobre los modelos matemáticos.

Este optimismo que genera no significa que no queden retos por delante pues aún existen tareas para las cuales la inteligencia artificial está por debajo de la natural, por poner un ejemplo citemos a los numerosos acertijos lógicos en los que normalmente falla ChatGPT. Otro aspecto a considerar es la seguridad de los modelos matemáticos que a pesar de ser fiables en gran parte de la distribución de sus tareas, fallarán en las colas muy lejanas que podrían corresponder a los casos más complicados de solucionar.

Hace dos días les presentamos nuestro Top 7 sobre Matemáticas y pronto lo hacemos sobre Finanzas Cuantitativas. Hemos añadido algunas referencias de los trabajos originales esperando que nuestros estudiantes disfruten no solo nuestro texto con nuestras descripciones sino también de los detalles.

La nueva arquitectura interpretable Kolmogorov-Arnold

Las redes neuronales han volteado de cabeza a la inteligencia artificial posiblemente para siempre. Su capacidad para ajustar señales en espacios de dimensión inimaginables para la estadística clásica es sencillamente brutal. Desafortunadamente se ha tenido que sacrificar el desempeño por la interpretabilidad de tal manera que los modelos actuales no son transparentes y es casi imposible entender las razones de una predicción.

Uno de los grandes avances de este 2024 es la posibilidad de construir una arquitectura basada en el famoso Teorema de Kolmogorov-Arnold el cual construye un modelo matemático mucho más interpretable. ¿En qué consisten estas arquitecturas que todos volteamos a ver con toda nuestra atención durante este año?

Los científicos de datos aunque sean principiantes comprenden muy bien lo que significan las combinaciones lineales de nuestras características. Como un ejemplo pensemos en un problema de valuación de una renta de Airbnb en el cual es necesario ponderar el tamaño, la ubicación, la comodidad del lugar y un gran etcétera de features, los modelos lineales buscan optimizar estos valores conocidos como betas para reducir el error en un conjunto de entrenamiento.

La dificultad aparece cuando queremos utilizar modelos más complicados como las redes neuronales en las que se construye una capa intermedia con posiblemente muchísimas variables latentes de tal manera que cada una de nuestras características originales tendrán tantas betas como variables latentes. El siguiente paso indispensable es utilizar una función no lineal para cada una de las variables latentes para después combinar todos estos resultados con nuevos pesos. La interpretación de estos nuevos pesos asociados a las variables latentes es completamente obscura para el científico de datos y peor aún los primeros pesos han perdido significado claro.

Las grandes ventajas entre las nuevas arquitecturas Kolmogorov-Arnold y la de los perceptrones multi-capa son las siguientes:

  1. Gracias al teorema de Representación de Kolmogorov-Arnold el cual resolvió positivamente el Trigésimo Problema de Hilbert de su famosa conferencia en París, el número de variables latentes está acotado linealmente por el número de features.
  2. Las variables latentes son el resultado directo de una suma de funciones en una dimensión. Esto significa que podemos interpretar cómo está afectando cada una de las características sin la necesidad de aplicarle una función no-lineal a la suma.
  3. La desventaja en teoría es que estas funciones uni-variadas son no-lineales sin embargo se ha logrado reducir a variables que son bastante sencillas de entender llamadas splines.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

Dos premios Nobel para las redes neuronales

No podríamos obviar uno de los logros más importantes en la historia de las redes neuronales pero también de la IA y es que por primera vez se le ha otorgado un premio Nobel a trabajos en los que las redes neuronales resuelven problemas. ¡De hecho han sido dos premios Nobel el mismo año!

El primero en anunciarse lo recibieron John Hopfield y Geoffrey Hinton por sus trabajos sobre redes neuronales densas y recurrentes. Una de las primeras arquitecturas que obtuvo llamativos resultados prácticos fueron las redes de Hopfield las cuales se pueden utilizar por ejemplo para eliminar el ruido de una imagen. Este tipo de problemas se resuelven en la actualidad con sofisticados modelos de difusión los cuales son indispensables para la IA generativa de imágenes. Interesantemente las redes de Hopfield están profundamente inspirados en modelos físicos como los spin models.

Algunos años más tarde Geoffrey Hinton revolucionaría el entrenamiento de las redes neuronales con el algoritmo de backpropagation gracias al cual es posible entrenar redes muy profundas de manera eficiente. desde entonces Hinton ha estado en el centro del tablero de la IA participando en un sin número de aplicaciones y mejoras de las redes neuronales. En la actualidad su nombre ha estado ligado a la preocupación por los peligros que podría causar la inteligencia artificial sin la suficiente regulación.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

El segundo premio Nobel fue entregado parcialmente a Demis Hassabis y John Jumper quienes liderearon el proyecto para diseñar el programa AlphaFold basado en redes neuronales que permitió por primera vez predecir a gran escala la estructura tres dimensional de las proteínas utilizando una nueva arquitectura transformer. Es importante mencionar que su trabajo no hubiera sido posible sin los avances que hizo David Baker en enfoques computacionales para atacar este problema. Juntos se podría decir que resolvieron uno de los problemas del siglo en Biología.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

El algoritmo de Dijikstra es óptimo

El algoritmo de Dijkstra es uno de los grandes logros en la inteligencia artificial pues permite encontrar el camino óptimo en una ruta dentro de un grafo. Este algoritmo es por ejemplo la base de algunos de los métodos utilizados por Waze para encontrar la ruta óptima. Hace algunos meses un equipo de científicos de la computación logró demostrar que este algoritmo es universalmente óptimo lo que significa que es el mejor posible independientemente de la topología del grafo donde se estén buscando los caminos. Normalmente las demostraciones matemáticas de la eficacia de un algoritmo son bastante complicadas pues como muchos otros métodos en inteligencia artificial, lo que en la práctica es óptimo no necesariamente es inmediato demostrarlo.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

Medalla de plata para AlphaProof en la olimpiada de matemáticas

Una de las grandes batallas que ha librado la Inteligencia Artificial en el último año es contra los exámenes de la Olimpiada Internacional de Matemáticas también conocida como IMO. En este certamen se han descubierto una gran cantidad de talentosos matemáticos cuyas carreras han moldeado las últimas décadas en muchos aspectos científicos. Por ello la tarea de entrenar a una inteligencia artificial capaz de competir contra los futuros genios de la ciencia resulta casi magnético.

Ya hemos tenido la oportunidad en este espacio de platicarles sobre las grandes dificultades que tienen estos problemas multi-modales en los que se mezclan textos, imágenes y complicados razonamientos lógicos. Ya hemos tenido la oportunidad en este mismo espacio para platicarles sobre una de las iniciativas que todos en el mundo de la IA seguimos con atención, la AIMO que ha destinado un total de 10 millones de dólares a premiar aquellos modelos que logren esta hazaña.

En este 2024 -posiblemente un poco antes de lo que muchos hubieran imaginado- el equipo de Google DeepMind logró una medalla de plata en la IMO de este año. Es muy interesante descubrir la enorme cantidad de matemáticos profesionales de altísimo nivel como Terence Tao, Timothy Gowers, Sergei Gukov y un gran etcétera seriamente involucrados o interesados por este problema. La gran cantidad de mejoras a los modelos de inteligencia artificial que podrían nacer de este trabajo es muy emocionante. Muchos en la comunidad presentimos que durante este 2025 la Inteligencia Artificial logrará una medalla de oro histórica y este evento quedará guardado junto a otros indispensables como la derrota de Kasparov en ajedrez o de Lee Sedol en Go.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

El primer modelo auto-regresivo para imágenes

Hace algunas semanas en Vancouver tuvo lugar la famosa conferencia Neural Information Processing Systems, quizás una de las más importantes para la Inteligencia Artificial. En esta edición se premió como mejor artículo a un modelo auto-regresivo que utiliza arquitecturas estilo transformer para la edición y generación de imágenes. Este trabajo es muy llamativo pues hasta el momento los mejores resultados para los problemas generativos de imágenes utilizaban las técnicas de difusión. Lograr un mejor desempeño para este tipo de problemas utilizando modelos transformer es muy importante por las ventajas que ofrece en términos de:

  1. Leyes de potencias respecto al número de parámetros, error y tiempo computacional. Gracias a estos fenómenos es posible tener una mejor intuición sobre las decisiones durante el calibrado de los modelos neuronales.
  2. Presencia de fenémoenos zero-shot gracias a los cuales es posible mejorar el desempeño de estos modelos sin la necesidad de re-entrenarlos.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

¿Podremos predecir el clima en un futuro cercano?

Hace unos pocos días la revista Nature premió a Rémi Lam como uno de los científicos que han moldeado la ciencia en este año. Rémi Lam es parte de un gran equipo en Google DeepMind encargado de utilizar modelos neuronales para predecir el clima. Este problema es uno de los grandes pendientes que tiene la Ciencia con todos los seres vivos que habitamos en el planeta. Todos al viajar a un nuevo lugar, al planear un evento al aire libre o simplemente al protegernos de un desastre natural como los huracanes hemos notado lo complicado que es predecir el clima. Son tantas las variables que debemos de considerar y lo intrincadas sus relaciones causales que este problema ha atormentado a la comunidad científica desde hace siglos.

En una tour de force durante este año especialmente lidereada por dos modelos de redes neuronales llamados GenCast y GraphCast se han logrado resultados maravillosos en esta área.

Si desean conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

Corrección de errores en computadoras cuánticas

Como ya lo mencionamos hace algunas semanas en este mismo espacio, el equipo de Google DeepMind logró mediante una red neuronal aumentar sustancialmente la capacidad para detectar errores en computadoras cuánticas. Lograr esto es inevitable si deseamos algún día poder aprovechar las ventajas de la física cuántica para acelerar el poder de las computadoras clásicas. Este logro de las redes neuronales confirma nuevamente lo poderosas que son las redes neuronales para identificar patrones complicados. Si desean conocer más detalles sobre AlphaQubit los invitamos a leer nuestra publicación anterior.

Quienes deseen conocer los detalles de este increíble trabajo los invitamos a visitar esta liga.

¿Dónde aprender Inteligencia Artificial y sus fundamentos?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial. Todos los perfiles y necesidades son bienvenidos pues los curso son progresivos. Pueden revisar información en las páginas Track de Finanzas Cuantitativas & AI y Track de Ciencia de Datos.

Compartimos con ustedes algunos de nuestros temarios de cursos por iniciar: