¡Feliz cumpleaños ChatGPT!

30/11/2023
AUTOR
Colegio de matemáticas Bourbaki

Hace un año OpenAI publicó el que innegablemente, es el desarrollo más mediático de la Inteligencia Artificial en toda la historia. Algunos creemos que este éxito no es infundado y aunque habrán otros días para discutir sobre sus evidentes limitaciones y hasta desventajas sobre otros modelos matemáticos para lograr la IA o la IAG, hoy no seremos aguafiestas y vamos a festejar su éxito de una manera muy especial.

Si bien los detalles sobre la arquitectura, la base de datos y el método de entrenamiento de ChatGPT no han sido revelados al considerarse un secreto industrial, el modelo que lleva un año sorprendiendo a toda la humanidad no sería posible sin tres construcciones matemáticas que vamos a mencionar en este texto:

  • Modelos auto-regresivos
  • Aprendizaje por refuerzo con retroalimentación humana
  • Métodos del gradiente de políticas

Para explicarlo vamos a mencionar tres casos prácticos en los que tanto ChatGPT como estas técnicas matemáticas han sido utilizadas:

  • Procesamiento de textos legales
  • Auto-corrección moral en modelos generativos
  • Vehículos autónomos y robótica

La irrazonable eficacia de la auto-regresión

Los modelos auto-regresivos son modelos que aprenden a calcular las probabilidades de secuencias condicionadas con observaciones previas de esta misma, un ejemplo típico son los modelos de series de tiempo en los que se utilizan valores pasados para predecir el futuro.

En el artículo The unreasonable effectiveness of large language models in zero-shot semantic annotation of legal texts se explica con numerosos ejemplos cómo ChatGPT y modelos similares han sido eficaces para procesar textos legales.

Si lo pensamos detenidamente es increíble que modelos que han aprendido los patrones principalmente de otros textos, sean capaces de contestar en numerosos casos, de hecho esta es una de las críticas a este tipo de modelos pues se les considera que solo están repitiendo información sin que necesariamente lo entiendan.

RLHF: el arte del fine-tuning

Aunque ya hemos hablado antes sobre las alucinaciones que comenten este tipo de modelos, es sorprendente cómo las conversaciones con ChatGPT rara vez se vuelve incómoda, una preocupación de OpenAI era que estos modelos contestaran respuestas groseras o inadecuadas. Tomando en cuenta que las bases de datos sobre las que se entrenaron podrían contener este tipo de respuestas es muy importante tratarlas de evitar.

Gracias al Aprendizaje por Refuerzo con Retroalimentación Humana los desarrolladores de ChatGPT fueron capaces de calibrar a este modelo y prevenir este tipo de comportamientos.

Un aspecto polémico del RLHF es que en el caso del texto, la base de datos de respuestas correctas e incorrectas parecería estar demasiado desbalanceada hacia las respuestas fuera de tono.

Hace algunos meses investigadores de Anthropic publicaron un artículo titulado The Capacity for Moral Self-Correction in Large Language Models en el que por medio de RLHF lograron que como una de las propiedades emergentes del modelo se lograra la auto-corrección moral de un modelo del lenguaje.

Teorema del Gradiente de Política

Para entrenar modelos de Aprendizaje por Refuerzo existen muchos métodos, todos ellos adecuados dependiendo del tipo de proceso de decisión de markov que se esté utilizando. Recientemente los métodos parecidos al Descenso por Gradiente comúnmente utilizado en Machine Learning han probado ser muy eficaces.

Uno de estos ejemplos es el utilizado en el entrenamiento final de ChatGPT el cual tiene el nombre de Proximal Policy Optimization y es considerado el estado del arte en Aprendizaje por Refuerzo.

Además de utilizarse en problemas del lenguaje natural ha sido implementado en aplicaciones a la robótica, un caso muy llamativo es en vehículos autónomos por la compañía Woven by Toyota en el trabajo Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients.

¿Dónde aprender más sobre Inteligencia Artificial?