Redes neuronales para espacios infinitos (y la aproximación universal)

Alfonso RuizAlfonso Ruiz
13/1/2022
AUTOR
Colegio de matemáticas Bourbaki

Alfonso Ruiz

Las redes neuronales profundas son uno de los objetos matemáticos que más fascinación han despertado tanto en la comunidad científica como en el mundo industrial. No es exagerado afirmar que estos modelos han cambiado nuestra sociedad (o pronto lo harán) por completo.

Las redes neuronales que todos utilizamos por más profundas que sean son funciones entre espacios de dimensión finita. Recientemente un grupo de científicos de la computación logró resultados impactantes utilizando una nueva familia de redes neuronales que permiten lidiar con espacios de dimensión infinita. En este texto daremos una explicación detallada de lo que esto significa.

Es importante mencionar que para ambas familias de redes se desconocen las razones exactas por las que son tan útiles para resolver un sinfín de problemas. Una de las pocas pistas que se conocen sobre este misterio son los llamados Teoremas de Aproximación Universal, más adelante en este texto describiremos con detalle qué dicen los teoremas de aproximación y por qué nos ayudan a comprender mejor a las redes neuronales.

  1. Redes neuronales profundas
  2. Capacidad expresiva
  3. Alumni
  4. Dimensión infinita y ecuaciones diferenciales
  5. Los teoremas de aproximación
  6. Ejercicios

Redes neuronales profundas

Todas las redes neuronales son funciones que reciben un registro dentro de una base de datos y hacen una predicción sobre este. Las bases de datos de las que estamos hablando pueden componerse de imágenes o texto o ventas históricas de nuestros clientes, etc.

No alt text provided for this image

Sin hacer demasiado énfasis sobre qué tipo de datos estamos utilizando supongamos que uno de nuestros registros se llama x y tiene las siguientes características que lo definen:

No alt text provided for this image

En el caso de una imagen podemos pensar en sus características como los colores de los píxeles, si hablamos de clientes entonces las características son la cantidad vendida de un producto a ese cliente.

La versatilidad para tratar datos no-estructurados es una poderosa ventaja de las redes neuronales sobre otros modelos, sobre esta versatilidad de las redes una de nuestras estudiantes Sandra Alvarado Mijangos quien cursó la Especialización en Deep Learning con nosotros comentó lo siguiente:

No alt text provided for this image

Las redes neuronales se construyen inductivamente utilizando las siguientes operaciones:

  • Funciones lineales: la multiplicación de matrices.
No alt text provided for this image
  • Funciones afines: la suma vectorial.
No alt text provided for this image
  • Funciones de activación: funciones que coordenada a coordenada no se grafican como una recta.
No alt text provided for this image
  • Composición de funciones: en el caso de dos funciones corresponde a utilizar la segunda función en el resultado de la primera.
No alt text provided for this image

En este texto supondremos que las redes neuronales ya han sido entrenadas, este entrenamiento es un punto delicado del cual no hablaremos en esta ocasión. En los cursos avanzados del Colegio de Matemáticas Bourbaki es un tema que se explica con cuidado.

Capacidad expresiva

Los teoremas de aproximación que son uno de los temas centrales de este texto, a grandes rasgos dicen que la capacidad expresiva de las redes neuronales profundas es máxima.

Existen distintas maneras de definir a la capacidad expresiva de una familia de modelos matemáticos, en esta sección comenzaremos con una explicación sencilla y más adelante hablaremos sobre otras definiciones más sofisticadas. Comencemos con un problema simple del modelado de ingresos.

Modelar los ingresos con base en el aumento del precio

No alt text provided for this image

Imaginemos que el Colegio de Matemáticas Bourbaki ha decidido que a lo largo del año va a modificar las tarifas de sus cursos, supongamos que estamos hablando de un curso por 3 meses que cuesta USD 1,000 y se ha decidido que los incrementos serán de USD 100. Históricamente en un año a este curso se inscriben 60 personas y se ha estudiado que por cada incremento que se hace disminuye en 2 el número de estudiantes inscritos.

Denotaremos por Y los ingresos del colegio y por X el número de incrementos que se harán a lo largo de un año, deseamos encontrar una función f que modele a Y con base en X:

No alt text provided for this image

Supongamos que solo tenemos la posibilidad de utilizar dos modelos f para resolver este problema:

  • Funciones lineales:
No alt text provided for this image
  • Funciones cuadráticas:
No alt text provided for this image

Las funciones lineales no funcionan adecuadamente por la siguiente razón:

Existen dos regímenes distintos del crecimiento de los ingresos para este problema. Si el número de veces que se incrementa el precio es entre 0 y 10, las ganancias decrecen a medida que el número de incrementos aumenta. Por el otro lado si el número de incrementos es mayor a 30 entonces las ganancias aumentan junto a la cantidad de incrementos.

Para comprobar lo anterior invitamos a los interesados a utilizar la fórmula:

Ganancias = Precio x Ventas y evaluar en algunos de los puntos dentro de los intervalos que les proponemos, la fórmula en nuestro caso particular se escribe así:

No alt text provided for this image

Las rectas son funciones que se comportan muy parecido a las reglas de tres en el siguiente sentido, solo puede ocurrir alguno de los dos regímenes anteriores en un mismo problema. Por tanto si utilizamos una recta para modelar las ganancias del colegio no tenemos la capacidad de expresar estos dos regímenes.

El teorema de Stone-Weierstrass

Notemos que en el problema anterior únicamente utilizamos polinomios para modelar el fenómeno, las redes neuronales son distintas a los polinomios. Por su parte la familia de los polinomios cuenta con su versión del Teorema de Aproximación Universal el cual es extraordinariamente útil en muchas áreas de las matemáticas.

Alumni del Colegio de Matemáticas Bourbaki

Además de desmitificar dentro de la comunidad en Iberoamérica a las redes neuronales, el objetivo de este artículo es compartir con nuestro alumni contenidos que puedan continuar siendo útiles para su preparación como Científicos de Datos.

En lo particular, aquellos estudiantes que hayan cursado los siguientes cursos con nosotros, encontrarán de interés este texto por las siguientes razones:

Especialización en Deep Learning: durante los cinco módulos del curso el alumno se enfrentó a problemas donde las bases de datos contienen texto, imágenes, datos estructurados e incluso combinaciones de los anteriores. Los teoremas de aproximación de justifican que si creemos en la existencia de una función que explique por ejemplo las respuestas correctas de una pregunta respecto a una imagen, entonces las redes neuronales pueden aproximar correctamente a esta función. Durante este curso no hablamos de redes neuronales entre espacios de dimensión infinita y aunque desde un punto de vista industrial estas redes aún no son fundamentales es muy probable que pronto lo serán.

Algunos de los profesores de este curso son Gerardo Hernández, Ana Isabel Ascencio, Eduardo Ramírez, Francisco Marín, Judith Cerit.

Sobre los profesores, nuestro estudiante Francisco Morales comentó lo siguiente.

No alt text provided for this image

Matemáticas para la Ciencia de Datos: durante el último de los módulos sobre Cálculo y Optimización además de estudiar el algoritmo de entrenamiento de las redes neuronales llamado Back-Propagation, en la última de las clases les presentamos los resultados del artículo que motivó este texto en el que se resuelven ecuaciones diferenciales en un tiempo mucho menor al de otros métodos.

Compartimos con todo el público el Código en Python de esa semana de curso.

Machine Learning & AI for the Working Analyst: en este curso ustedes tuvieron la oportunidad de estudiar dos redes neuronales muy distintas, por un lado el perceptrón para clasificación de tejidos cancerígenos y por el otro las redes neuronales recurrentes para los resúmenes de texto. Los resultados de los que hablamos en este texto sugieren que las redes neuronales pueden resolver problemas muy complicados o mejorar el rendimiento de otros modelos ineficaces.

Les compartimos una reseña de este curso de nuestro estudiante José Antonio Lanzguerrero Obeid.

No alt text provided for this image

Espacios de dimensión infinita

Tal y como lo mencionamos al inicio de este texto, las redes neuronales que utilizamos normalmente solo toman en cuenta una cantidad finita de características de nuestros registros en un dataset.

Existen muchos problemas en los que es importante considerar una cantidad arbitrariamente grandes de características de nuestros registros para comprenderlos a cabalidad.

No alt text provided for this image

Quizás no todos están familiarizados con este tipo de ejemplos sin embargo desde un punto de vista práctico son muy interesantes.

Recientemente el trabajo formidable de un grupo de investigadores ha puesto en la diana en aquellas redes neuronales que pueden tratar con datos con una cantidad infinita de características y las han llamado Operadores Neuronales de Fourier.

Ecuaciones diferenciales

Dadas unas condiciones iniciales, la solución a una ecuación diferencial es un ejemplo de un registro dentro de una base de datos que requiere una cantidad infinita de características. Un ejemplo fundamental son las ecuaciones de Navier-Stokes que pueden utilizarse para modelar la turbulencia dentro de un fluido, quizás el ejemplo más importante es la turbulencia alrededor de un avión, en este caso el fluido será el aire.

Bien entendido un fluido tiene una cantidad infinita de características cuando lo pensamos como un continuo. Es cierto que para muchas de las aplicaciones incluyendo las aeroespaciales esta hipótesis se modifica para pensar en un fluido como una familia finita de características, es decir que una red neuronal usual podría estudiarlo sin embargo para ese caso no se han logrado avances tan interesantes como los que mencionamos.

Si insistimos en pensar en los fluidos como objetos de dimensión infinita entonces la solución exacta de las ecuaciones de Navier-Stokes es uno de los problemas del milenio y el Clay Mathematics Institute Ofrece 1 millón de dólares a quien lo solucione.

Los teoremas de aproximación

Los teoremas de aproximación aseguran matemáticamente que si iteramos suficiente los pasos para construir una red neuronal entonces cualquier función puede ser suficientemente bien aproximada.

A continuación incluimos las referencias de los distintos teoremas de aproximación de acuerdo a las distintas arquitecturas.

Redes neuronales feed-forward

Quizás el resultado más conocido dentro de los teoremas de aproximación fue demostrado por G. Cybenko en 1989, no olvidemos que antes de este resultado existen otros más débiles pero también muy importantes, este resultado en particular incluye únicamente la función sigmoide como función de activación.

Redes neuronales convolucionales

Las redes neuronales que más se utilizan en la industria para resolver problemas con imágenes son las llamadas redes neuronales convolucionales las cuales, para conocer un poco más sobre ellas los invitamos a nuestra clase muestra sobre el curso Especialización en Deep Learning

La versión del teorema de aproximación fue demostrado recientemente por Ding-Xuan Zhou.

Redes neuronales recurrentes

Las redes neuronales recurrentes son comúnmente utilizadas para resolver problemas sobre textos, para saber más sobre ellas les recomendamos nuestro primer artículo sobre NLP. Estas redes también cuentan con un teorema universal de aproximación demostrado por Funakashi y Nakamura.

Operadores Neuronales de Fourier

Las redes neuronales capaces de tratar con espacios de dimensión infinita cuentan ya con su teorema de aproximación universal y fue demostrado en 2021 por NIKOLA KOVACHKI, SAMUEL LANTHALER y SIDDHARTHA MISHRA.

Oferta académica