GenCast I: El clima no es una cadena de Markov

23/1/2025
AUTOR
Colegio de matemáticas Bourbaki

Si hace unos 17 años cuando comencé a estudiar matemáticas me hubieran dicho que fenómenos como el clima, juegos de estrategia como el Go o el lenguaje natural podrían predecirse satisfactoriamente con modelos matemáticos yo sin lugar a dudas hubiera dicho que no. Siempre había sido bastante pesimista sobre la capacidad de modelar bajo la amenaza de tantas variables, es muy probable que muchas personas hayan compartido esta idea.

Ninguno de nosotros contábamos con la capacidad de los algoritmos matemáticos para extraer información de bases de datos históricas o inclusive la experiencia. Es cierto que existen muchos otros fenómenos donde aún parecen lejanos los modelos matemáticos precisos como la predicción de temblores sin embargo los avances de la IA son tan veloces que seguramente pronto veremos algunas sorpresas.

En esta serie de dos artículos hablaré sobre uno de los grandes avances para la predicción del clima utilizando redes neuronales y modelos de difusión, en la segunda edición de la entrega me concentraré en cómo se utilizan los modelos de difusión y en esta daré una breve introducción a las ideas generales así como una observación fundamental: las cadenas de markov no son suficientes.

¿Qué es GenCast?

A finales del año pasado Google DeepMind publicó un artículo en la revista Nature en el que describe la implementación de una red neuronal llamada GenCast que ha sido entrenada con más de 40 años de datos históricos y ha sido probada en datos del 2019. La red neuronal es capaz de hacer una predicción con hasta 15 días de antelación lo cual es muchísimo más de lo que estamos acostumbrados.

Además la red neuronal puede hacer predicciones en un espacio bastante amplio, haciendo algunas cuentas de los datos publicados, podría predecir satisfactoriamente el clima en un espacio como el que hay entre la Ciudad de Mérida y el Puerto de Sisal. En términos de velocidad, los cálculos se puede hacer en una máquina muy razonable (Google Cloud TPU v5) en 8 minutos, esto es un gran avance cuando comparamos con los sistemas más precisos actuales que necesitan grandes poderes de cómputo.

El modelo dio resultados más precisos en cerca del 100% de los casos, subiendo considerablemente su desempeño en días lejanos los cuales evidentemente son los más complicados. Tanto los modelos como los pesos en las redes neuronales han sido compartidos con el objetivo de que la comunidad pueda utilizar esta investigación. GenCast es una continuación del trabajo que publicaron prácticamente un año antes sobre la red GraphCast, la gran diferencia es que en el nuevo modelo el output es aleatorio mientras que en el anterior era determinista, esto como ya lo saben los científicos de datos, nos permite entregar predicciones más seguras.

La cantidad de aplicaciones que tiene un modelo de predicción del clima es gigantesca, no solo pensemos en la seguridad de los habitantes de un lugar donde va a ocurrir un huracán, también en cómo se podrán optimizar la extracción de energías renovables como la eólica.

La arquitectura

La arquitectura de la red neuronal como en el estado del arte utiliza capas de atención y la extracción de las características es por medio de un Graph Neural Network el cual utiliza la posición en la atmósfera de las observaciones para construir un grafo esférico. Al igual que muchas GNN se propone un Encoder-Decoder sin embargo en este caso la arquitectura completa es un poco más elaborada: Encoder-Processor-Decoder. En la siguiente edición hablaremos sobre cómo se utiliza un modelo de difusión para modelar los tiempos futuros.

¿Cadenas de Markov?

Una de las observaciones al leer el artículo que me pareció llamativa es que al hacer la predicción en una ventana de tiempo de 15 días, se factoriza la distribución conjunta no como una cadena de markov ni como un proceso independiente sino como un proceso estocástico en el que el valor actual depende de los dos anteriores, una idea similar a un proceso AR(2) en series de tiempo.

Algunos lectores encontrarán obvio que no es una cadena de markov pues parece bastante simplista imaginar que el clima se pueda modelar únicamente utilizando los datos inmediatos anteriores sin embargo al igual que los modelos lineales o las distribuciones gausianas, las cadenas de markov han logrado un éxito enorme a pesar de no ser tan sofisticadas como uno supone.

Me gustaría compartirles el artículo original porque me parece uno de los grandes logros del año pasado, de hecho ya lo incluimos en la lista de lo mejor en AI del 2024.

¿Dónde aprender Inteligencia Artificial?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas.