¿Se están acabando los datos para entrenar IA?

20/3/2025
AUTOR
Colegio de matemáticas Bourbaki

La Inteligencia Artificial es una de las herramientas que han y están cambiando nuestra sociedad por completo, su auge en los últimos años se debe sin lugar a dudas al uso de las bases de datos para poder entrenar modelos matemáticos.

Si bien es cierto que no todos los enfoques de inteligencia artificial utilizan Machine Learning en la actualidad prácticamente tanto Deep Learning como Reinforcement Learning se utilizan como sinónimos de la Inteligencia Artificial. Lo anterior nos obliga a preguntarnos si las bases de datos son verdaderamente fuentes inagotables de información y si podemos confiar en que seguiremos teniendo suficientes datos para aprovechar toda la investigación que se está haciendo en esta dirección.

En este artículo hablaremos sobre el gran reto que existe al utilizar datos y cómo en algunos casos se ha logrado no tener que depender de las bases de datos públicas.

Large Language Models

Hace unos meses se publicó un artículo titulado Will we run out of data? Limits of LLM scaling based on human-generated data en el que se sugiere que los métodos actuales para el entrenamiento de los Large Language Models podría estar cerca de encontrar un límite debido a la falta de datos públicos suficientes con los cuales entrenarlos.

Dándole seguimiento a este trabajo, hace unos meses se publicó en Nature un artículo titulado The AI revolution is running out of data. What can researchers do? el cual les recomendamos ampliamente y donde se pronostica que si la tendencia continúa, la cantidad de datos con la que podremos entrenar un modelo del lenguaje coincidirá con la cantidad de información publicada en internet lo cual representa un temible cuello de botella para el desarrollo de la inteligencia artificial.

Otro de los grandes obstáculos a los que pronto nos enfrentaremos es que algunas compañías van a restringir cada vez más el uso de sus datos (aunque sean públicos) para entrenar modelos de inteligencia artificial, el ejemplo típico es el The New York Times que ha demandado a OpenAI por el uso de sus publicaciones en el entrenamiento de los modelos utilizados en ChatGPT.

IA más allá de los LLM

Lo anterior es hablando únicamente de los LLM sin embargo no todos los modelos de inteligencia artificial están basados en el lenguaje natural, pensemos por ejemplo los modelos para jugar Go y Ajedrez como AlphaGo o como AlphaZero los cuales dependen de una base de datos construida por medio de simulaciones. Esto les da una gigantesca ventaja sobre los LLM a pesar de que en algunos casos se han comenzado a utilizar textos generados por IA para entrenar otras inteligencias artificiales.

Si pensamos en modelos como AlphaFold cuyo desarrolló le valió el premio Nobel de Química el año pasado a Google DeepMind aquí también se utilizan técnicas de simulación para mejorar la calidad de estos modelos debido a que los datos públicos son nimios comparados con lo que normalmente se necesitaría.

Lo mismo ocurre con los modelos como AlphaGeometry el cual es utilizado para resolver problemas de la olimpiada de matemáticas y ha logrado grandísimos avances en los últimos años. Notemos que en este caso las bases de datos evidentemente son pequeñas pues es una actividad insignificante respecto a por ejemplo los artículos de prensa.

No es completamente claro si es posible utilizar estos otros métodos para cualquier modelo de inteligencia artificial y desde mi punto de vista es uno de los grandes retos que enfrenta la Inteligencia Artificial.

En los últimos años Yann LeCun ha notado lo alejado que está el enfoque de la inteligencia artificial basado únicamente en los datos. El ejemplo que él pone es el siguiente: una niña durante sus primeros 4 años de vida tiene una base de datos visual que contiene 50 veces más información que la base de datos con la que se entrenó ChatGPT. Es cierto que mucha de esta información es muy repetitiva sin embargo esto es muy bueno para algunos métodos semi-supervisados.

¿Dónde aprender Machine Learning e IA?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas. Estos son los dos cursos que están por comenzar y durarán todo el 2025.