Hello hallucination, my old friend

8/4/2025
AUTOR
Colegio de matemáticas Bourbaki

Todos quienes utilizamos los Grandes Modelos del Lenguaje vivimos con el miedo de que en algún momento comentan un grave error del cual no nos demos cuenta y enviemos un mensaje equivocado en un correo o borremos algún dato importante cuando queremos hacer un resumen. Estos errores que en algunos casos pueden ser desafortunados se disfrazan de textos gramaticalmente correctos lo cual endulza una falla rara en los expertos. A este proceso de suavización de los errores en las respuestas de un LLM normalmente se le conoce como alucinación.

No es clara la definición de una alucinación y podríamos ingenuamente asociarla con un error que a simple vista es un texto con una buena redacción. Como todos los errores en Machine Learning estos errores podrían venir de dos fuentes en el proceso de aprendizaje: sub-ajuste y sobre-ajuste. En este artículo explicaremos cómo estas alucinaciones difícilmente son un fenómeno demasiado distinto al que ya observamos en otros problemas de la Ciencia de Datos.

Decidir cuando un modelo del lenguaje está sobre-ajustando o está sub-ajustando es bastante complicado pues los procesos de validación durante el entrenamiento son en general opacos lo cual hace imposible al usuario distinguir si estas alucinaciones provienen del sub o el sobre ajuste. En este artículo de nuestro Bourbakisme vamos a explicar dos alucinaciones que seguramente provienen de dos fuentes de error distintas.

Alucinaciones por sub-ajuste

Contenido del artículo

El sub-ajuste por definición ocurre cuando el modelo que estamos entrenando no es capaz ni siquiera de predecir correctamente en el conjunto de entrenamiento. Típicamente los modelos poco parametrizados tendrán este problema, por ejemplo los modelos lineales. ChatGPT está cometiendo un error en el siguiente prompt y seguramente esto se debe al sub-ajuste.

Contenido del artículo

La razón por la que le he preguntado a ChatGPT sobre ese número en particular es porque es el número primo más grande conocido hasta ahora. Si lo desean pueden revisar la página de wikipedia sobre él. Mostrar que este número es primo es muy complicado, requiere no solo un poco de conocimiento sobre matemáticas sino un cálculo muy exhaustivo al que difícilmente tendremos acceso. De hecho la mayor parte de nosotros cometeríamos un error al dar una explicación sobre esta pregunta.

¿Qué contesta ChatGPT?

Contenido del artículo

Evidentemente esta cometiendo un error ChatGPT al responder que no es un número primo. Si recordamos que Wikipedia es parte de los textos con los que se entrenó ChatGPT podemos notar que el modelo está sub-ajustando pues claramente en la página que les compartimos dice que el número es primo.

Si revisamos la gloriosa conclusión que escribe ChatGPT a nuestro prompt no queda ninguna duda sobre por qué la palabra alucinación es muy adecuada para este tipo de error.

Contenido del artículo

Alucinaciones por sobre-ajuste

Contenido del artículo

Ahora vamos a ver una alucinación que seguramente se debe al sobre-ajuste. Consideremos el siguiente prompt que le hemos hecho a ChatGPT:

Contenido del artículo

Lo primero que deben de saber es que no existen Cenotes en el estado de Jalisco, únicamente existen en la península de Yucatán, es decir más de 1,000 Kilómetros alejado y con una geografía radicalmente distinta.

Noten cómo estamos provocando al modelo para que se equivoque al incluir algunas palabras como:

  • Vacaciones
  • Playa
  • Puerto Vallarta
  • Ruta del Tequila

Es muy probable que en textos relacionados con el turismo en México en general haya visto estas palabras junto con la palabra Cenote pues todas ellas son parte de la oferta turística en México. De hecho si nosotros hacemos la misma pregunta sobre el estado de Yucatán, lo más probable es que el modelo prediga correctamente cuáles son algunos de los cenotes más conocidos. Por ejemplo la información de esta página. La respuesta que nos da ChatGPT es terrible porque está citando cenotes que están muy lejos de Jalisco.

Contenido del artículo

Nuevamente ChatGPT se regodea en la respuesta maquillándola con amabilidad a pesar de estar completamente equivocada. El problema que estamos viendo en este caso seguramente es de sobre-ajuste pues no es capaz de distinguir el ruido que generan las palabras Jalisco y Puerto Vallarta en la pregunta.

Contenido del artículo

¿Dónde aprender machine learning?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas. Estos son los dos cursos que están por comenzar y durarán todo el 2025.