La curvatura en redes neuronales

11/7/2024
AUTOR
Colegio de matemáticas Bourbaki

La curvatura de Ricci es una de las construcciones más famosas del pues le ha ayudado a los geómetras a entender mucho mejor el comportamiento de las variedades de acuerdo a su geometría local.

En esta edición de nuestro boletín hablaremos de cómo las versiones discretas de la curvatura le pueden permitir a los científicos de datos introducir un prior sobre la naturaleza de las características en nuestras observaciones. En el mismo espíritu de las simetrías, la curvatura se ha probado como una característica importante para tomar en cuenta durante el diseño de las arquitecturas ad hoc.

Geometría no-euclidiana

Uno de los cinco axiomas de la geometría clásica postulados en el libro Los Elementos escrito por Euclides dice lo siguiente:

Dados una recta y un punto en el mismo plano tales que el punto esté fuera de la recta, existe una única recta en ese mismo plano que contiene al punto y nunca toca la recta.

En el siglo XIX se descubrió que este axioma es absolutamente necesario pues existen otras interpretaciones del concepto de plano, recta y punto en donde se cumplen los otros 4 axiomas y este axioma no es cierto. Lo que es muy interesante es que hay dos maneras de negar el axioma de las rectas paralelas:

  1. Podría no existir ninguna recta que cumpla con la propiedad.
  2. Podrían existir una cantidad mayor a uno de las rectas con esa propiedad.
Una banda de Möbius admite los tres tipos de curvatura

Cuando se cumpla 1. diremos que estamos en una geometría esférica y cuando se cumpla 2. diremos que estamos en una geometría hiperbólica. El descubrimiento de estos modelos de la geometría es uno de los resultados más importantes en el desarrollo de las matemáticas del siglo XIX e inclusive fue fundamental para los modelos matemáticos de la relatividad propuestos por Albert Einstein.

A raíz del descubrimiento de estos objetos geométricos se comenzó a estudiar las nociones de distancia correspondientes y se descubrió que a diferencia de la geometría clásica, en estas geometrías las métricas satisfacen una propiedad jamás observada.

Hoy en día es posible cuantificar esta diferencia por medio de un invariante conocido como la curvatura de un espacio, la cual será cero cuando hablemos de la geometría euclidiana, positiva cuando hablemos de la geometría esférica y negativa cuando lo hagamos de la hiperbólica.

Es importante mencionar que existen distintas definiciones de la curvatura y uno de los más exitosos es el propuesto por el matemático italiano Gregorio Ricci-Curbastro, este concepto fue fuertemente utilizado por Grigori Perelman en su demostración de la conjetura de Poincaré.

Bases de datos y grafos

En la inmensa mayoría de los algoritmos de machine learning, la base de datos con la que se entrena es un subconjunto del espacio euclidiano por lo cual podría parecer extraño que las geometrías esférica e hiperbólica sean relevantes para los científicos de datos.

Cuando recordamos que los ejes coordenados corresponden con características de nuestros registros, parece poco creíble que el espacio euclidiano sea la mejor representación geométrica de nuestros datos pues una de las hipótesis del espacio euclidiano es que no existen relaciones de dependencia entre ningún par de ejes, evidentemente en ciencia de datos estas relaciones podrían aparecer.

El método ideal para representar sistemáticamente a estas relaciones ha sido diseñar arquitecturas conocidas como Graph Neural Networks las cuales ha probado ser extremadamente útiles para resolver problemas complicados en ciencia de datos, por ejemplo AlphaFold las utiliza.

Afortunadamente existen definiciones adecuadas de la curvatura para los grafos que coinciden con la propuesta por Ricci, una de ellas es la de Forman la cual distingue tres familias de grafos suficientemente distintas: los árboles (geometría hiperbólica), los grafos densos (geometría esférica) y las retículas (geometría euclidiana.

Over-smoothing y over-squashing

En el caso de las Graph Neural Networks existe un trade-off entre dos debilidades de la red neuronal: cuando existen nodos muy lejanos entre sí dentro de un grafo y cuando todos los nodos están muy cerca. El primero de estos problemas se le conoce como over-squashing y es muy similar a las relaciones de dependencia de largo plazo en datos secuenciales. El segundo de estos fenómenos conocido como over-smoothing sucede cuando es difícil distinguir grupos de variables pues todo está muy conectado, piensen por ejemplo en una red social.

En los últimos años se ha logrado caracterizar a estos dos comportamientos indeseados en términos de la curvatura del grafo asociado a la red neuronal. Además se han diseñado algoritmos para mitigar estos fenómenos durante el entrenamiento de las redes. Les recomiendo ampliamente leer más detalles sobre esto en el artículo Mitigating Over-Smoothing and Over-Squashing using Augmentations of Forman-Ricci Curvature.

¿Dónde aprender matemáticas?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle el ratio de Sharpe y otros temas relacionados con las finanzas cuantitativas, machine learning y en general la Ciencia de Datos, les invirtamos a revisar nuestra oferta académica para elegir el curso adecuado.