El teorema de Cybenko y la universalidad de las redes neuronales


Las redes neuronales profundas son el modelo matemático más importante para la Inteligencia Artificial sin embargo continúan siendo un misterio desde muchos puntos de vista. Por ejemplo desde el punto de vista estadístico así como desde la optimización, existen muchas preguntas abiertas sobre sus algoritmos de entrenamiento. A pesar de lo anterior, existe un teorema muy importante que nos da certeza sobre este tipo de modelos, a saber el famoso Teorema de Universalidad de las redes neuronales profundas. A grandes rasgos este teorema dice lo siguiente:
Si aumentamos el número de neuronas en una red con funciones de activación sigmoides y tenemos una base de datos para regresión con muchísimos datos, es posible reducir el error de entrenamiento tanto como sea necesario.
Este resultado fue demostrado por George Cybenko quien en la actualidad es investigador en la Universidad de Dormouth. Estudió matemáticas en Toronto y se obtuvo el doctorado de la prestigiosa universidad de Princeton.

En este texto hablaremos sobre el enunciado de este teorema e intentaremos dar algunas de las ideas detrás de la demostración. Es importante mencionar que a pesar de que este teorema aporta pocos beneficios a los científicos de datos, sí los tiene.
Definición del modelo
Los modelos que nos interesan son los siguientes, arquitecturas que satisfacen:
- Son redes neuronales densas
- La entrada de la red neuronal es arbitrariamente grande
- La salida es una sola neurona y tiene una función de activación lineal
- Tiene una única capa oculta
- El número de neuronas en la capa oculta es arbitrariamente grande
- Las funciones de activación de la capa oculta serán sigmoides

Notemos que esta es una red muy angosta si la comparamos con la mayoría de las que en práctica se utilizan y nombran esta disciplina: DEEP Learning. Ya que el resultado sigue siendo cierto con más capas, quienes deseen experimentar sobre el teorema de Cybenko, recomiendo que mejor lo hagan con más de una capa oculta para que se muestren más velozmente los resultados.
También debemos mencionar que existen otros teoremas de universalidad por ejemplo para redes recurrentes o convolucionales, sus demostraciones siguen las mismas ideas que el teorema de Cybenko.
Hipótesis del teorema
La manera como enunciamos el teorema es un poco distinta a la versión formal, para escribir la hipótesis es necesario sustituir "una base de datos para regresión" por: "una función continua a los números reales".

No es muy complicado explicar por qué estas dos maneras de escribirlo son muy similares sin embargo notemos que no todas las bases de datos definen una función, por ejemplo podría ocurrir que tenemos un registro con las mismas características y una distinta etiqueta, evidentemente estos registros normalmente se borran. Por el otro lado, la continuidad se podría resumir en lo siguiente:
- Si la variable explicativa de un par de registros en nuestra base de datos es similar, entonces la variable objetivo también lo debería de ser.
Importancia de la universalidad
Este resultado es lo mínimo que esperaríamos de una familia de modelos matemáticos exitosos, por ejemplo los polinomios también lo satisfacen. Desafortunadamente los polinomios tienen una grave complicación, a saber el sobre-ajuste. La razón por la que las redes neuronales profundas pueden evitar el over-fitting aún es un misterio en la teoría del aprendizaje. A los científicos de datos les ayuda conocer este resultado pues les indica cómo solucionar un problema de sub-ajuste cuando se está resolviendo un problema con machine learning.
Herramientas para la demostración

En la elegante demostración de Cybenko se utilizan dos teoremas importantísimos en matemáticas:
- El teorema de Hahn-Banach: En un espacio de funciones razonable, cualquier operador lineal y continuo que esté definido en un sub espacio vectorial, se puede extender a todo el espacio preservando su norma y valiendo cero en el sub-espacio vectorial.
- El teorema de representación de Riesz: Cualquier operador lineal y acotado coincide con la integral respecto a alguna medida.
Estos dos resultados aplican al teorema de Cybenko porque estamos hablando de funciones continuas. Por el otro lado es indispensable que la función entre la capa oculta de la red sea una función lineal, porque garantiza que el subconjunto de las funciones representadas por redes neuronales son un espacio vectorial.
Un bosquejo de la demostración de Cybenko
Supongamos que el teorema de Cybenko no es cierto, esto significa que existe una función continua que no se puede aproximar por una red neuronal. Gracias al teorema de Hahn-Banach, es posible encontrar una funcional que valga cero en todas las redes neuronales con la arquitectura que hemos fijado. Esta funcional por el teorema de representación de Riesz será la integral respecto a una medida.
Ahora viene el paso fundamental de la demostración y es aquí donde se utiliza la función entre la capa inicial y la oculta, si por ejemplo no se utiliza una función sigmoide como activación y se utiliza un polinomio, este resultado no sería cierto. Por otro lado, esta propiedad sigue siendo cierto para las funciones ReLU.
Si la función sigmoide satisface que su integral evaluada en cualquier combinación lineal de un número real es igual a cero, entonces la medida sobre la cual estamos integrando debe de ser igual a cero. Esencialmente estamos diciendo que estas funciones nos ayudan a calcularle el signo a las medidas.
¿Dónde aprender sobre redes neuronales profundas?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas.
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).