Premio Nobel de Física a las redes generativas de Hopfield y Hinton

8/10/2024
AUTOR
Colegio de matemáticas Bourbaki

El día de hoy el comité del Premio Nobel de Física 2024 anunció que el galardón se otorgará en partes iguales al físico estadounidense John Hopfield (Princeton) y al científico de la computación inglés Geoffrey E. Hinton (Toronto). Este premio es particularmente importante no solo para la comunidad de Física en todo el mundo, también tendrá una gran repercusión en el trepidante mundo de la Inteligencia Artificial debido a la elección del jurado de premiar a investigaciones que han moldeado el panorama actual de las redes neuronales profundas.

Hemos preparado esta edición de nuestro Bourbakisme para que nuestra comunidad conozca las arquitecturas de redes neuronales recurrentes de Hopfield y de Boltzmann por las cuales el jurado del premio Nobel ha decidido que estos modelos matemáticos y algoritmos de entrenamiento son tan relevantes considerando el enorme crecimiento de la inteligencia artificial generativa.

En las primeras dos secciones hablaremos sobre las redes de Hopfield y Boltzmann enfocándonos en tres aspectos fundamentales para los cuales hemos elegido tres trabajos que desde nuestro punto de vista pueden ayudarle a entender al lector as siguientes preguntas:

  1. ¿Qué son las redes de Hopfield / Boltzman?
  2. ¿Para qué se pueden utilizar las redes de Hopfield / Boltzman?
  3. ¿Cómo se relacionan las redes de Hopfield / Boltzman con la IA Generativa moderna?

También hemos decidido incluir una sección sobre las aplicaciones de los modelos neuronales en otras áreas de investigación en física pues esto ha sido citado por el jurado como una de la razones para la elección de los ganadores.

Considero que es un premio inmensamente merecido y adecuado pues las redes neuronales profundas son uno de los grandes logros científicos de las últimas décadas, debido a la poderosa influencia que han ejercido los modelos matemáticos motivados por la física para su desarrollo, este premio celebra la profunda comprensión de Hopfield y Hinton sobre los modelos estadísticos aplicados al magnetismo y la aleación conocidos como Spin Models.

Al final diremos unas palabras sobre lo que podría abonar este reconocimiento en la discusión sobre si la inteligencia artificial se debe de regular. Este es un debate en el que han participado prácticamente todos los investigadores y empresarios relacionados con la IA y en este momento tiene a dos grande bandos enfrentados.

Las redes de Hopfield

Hopfield propuso por primera vez este modelo en su artículo titulado Neural networks and physical systems with emergent collective computational abilities, en el cual comenzó a vislumbrar las enormes capacidades computacionales que podría tener un modelo matemático inspirado en las capacidades colectivas que aparecían en un sistema como el magnético. Hopfield relacionó esta familia de propiedades emergentes en un sistema con el concepto de una memoria la cual es fundamental para los modelos de aprendizaje.

¿Qué son las redes de Hopfield?

Las redes de Hopfield es una familia de redes neuronales recurrentes, es decir que a diferencia de las redes neuronales feed-forward, al evaluar nuestras capas en las distintas neuronas, debemos de respetar un orden determinado por un grafo dirigido, este orden es por ejemplo el que determina la posición en un texto, las primeras palabras deben de evaluarse antes de las últimas en una oración.

Al igual que en las redes usuales, existe un peso asociado a cada una de las conexiones entre las neuronas de la red y estos pesos se utilizan para calcular una combinación lineal la cual después pasará por una función de activación. A diferencia de las redes tradicionales no tenemos un input y un output sino que se buscará la convergencia de las neuronas después de que el sistema dinámico evolucione con el tiempo. El límite de esta red será similar al de una medida estacionaria en las cadenas de markov y se interpretará como una memoria asociativa de algún patrón.

¿Para qué se pueden utilizar las redes de Hopfield?

Por medio de la red neuronal de Hopfield es posible intentar aproximar distribuciones de probabilidad como por ejemplo las que generan una familia de imágenes. Una de las posibles aplicaciones que de hecho fue inicialmente desarrollada por el mismo Hopfield fue para corregir errores en registros. Esto es muy parecido a un problema de denoising en imágenes. Un ejemplo un poco más moderno de esta aplicación lo pueden encontrar en este artículo: QR Code Denoising using Parallel Hopfield Networks.

¿Cómo se relacionan las redes de Hopfield con la IA Generativa moderna?

En el siguiente artículo Memory in Plain Sight el cual fue publicado hace pocos meses se explica cómo las arquitecturas más modernas de difusión en las que se basan modelos como Midjourney o DALL-E se pueden interpretar como la memoria asociativa de una red moderna de Hopfield. Es importante recordar que los modelos de difusión son indispensables para la generación de imágenes con alta definición.

Las redes de Boltzmann

Geoffrey Hinton propuso junto a Sejonovsky por primera vez las máquinas de Boltzmann en su artículo A Learning Algorithm for Boltzmann Machines con el objetivo de incluir algunos nuevos conceptos de la física de partículas en las redes de Hopfield.

En la cita del premio se mencionan otros trabajos muy importantes de Hinton quien para muchos es el padre de la inteligencia artificial por medio de redes neuronales profundas, en particular el algoritmo de entrenamiento utilizado todos los días por científicos de datos de Backpropagation fue propuesto por él.

¿Qué son las redes de Boltzmann?

Las primeras redes de Boltzmann suponían una distribución de Boltzmann parametrizada por una función de energía que depende también de un conjunto de neuronas en un grafo ordenado y un conjunto de pesos. Al igual que las redes de Hopfield son redes neuronales recurrentes como las LSTM o muchas de las arquitecturas Transformer.

A lo largo del tiempo se ha tenido que modificar su arquitectura con el objetivo de mejorar sus capacidades estadísticas, un cambio muy significativo es distinguir a las variables latentes de las variables de la distribución que deseamos aprender. A estas nuevas arquitecturas se les conocen como Restricted Boltzmann Machines y supusieron un gran cambio pues es posible representar mejor a distribuciones complejas.

¿Para qué se pueden utilizar las redes de Boltzmann?

Antes de que los modelos generativos como las Generative Adversarial Networks o los modelos de Difusión fueran el estado del arte en IA generativa, el mismo Hinto publicó una implementación de modelos profundos de las máquinas de Boltzmann en su artículo Deep Boltzmann Machines, en él se aproxima empíricamente la distribución de la famosa base de datos MNIST con dígitos escritos a mano. Cuando uno revisa estos ejemplos pronto se puede imaginar que la inteligencia artificial generativa para imágenes es plausible.

¿Cómo se relacionan las redes de Boltzmann con la IA Generativa moderna?

En este artículo Generative and discriminative training of Boltzmann machine through quantum annealing podrán encontrar cómo un método generativo muy similar a las famosas Generative Adversarial Networks es modificado por medio de máquinas de Boltzmann y entrenado por medio de quantum annealing.

Aplicaciones en la investigación

En la cita del premio Nobel también se mencionan las importantes contribuciones que han hecho las redes neuronales profundas en la investigación en distintas áreas de la física, nos gustaría destacar los siguientes:

  1. El descubrimiento del bosón de Higgs.
  2. La reciente imagen de la vía láctea.

Así como estas y otras investigaciones en las que se utilizaron redes neuronales profundas relacionadas con la física, se menciona el monumental trabajo de las redes AlphaFold por Google DeepMind .

La discusión de la regulación y el riesgo de la IA

Un aspecto que me gustaría resaltar es que tanto Hopfield como Hinton se han manifestado públicamente sobre la necesidad de regular el uso y desarrollo de la inteligencia artificial con el objetivo de evitar catástrofes para la humanidad. Considero que este premio se puede interpretar como un guiño a sus posturas sobre este tema, inclusive en la presentación del premio se mencionaron los posibles riesgos y la importancia de comprender mejor a estos modelos.

¿Dónde aprender Redes Neuronales Profundas?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle la teoría y la práctica de las redes neuronales profundas. Compartimos con ustedes algunos de nuestros temarios.