GPT-4. Lo último de Open AI

Rubén Rodríguez Abril

GPT-4 es un modelo de lenguaje desarrollado por OpenAI que genera texto a partir de entradas compuestas por otros textos y por imágenes. En el verano de 2023 se había convertido en la base de los célebres chatbots ChatGPT y Bing Chat.

GPT-4

Bing Chat, de Microsoft, y la versión de pago más avanzada de GPTChat tienen (a septiembre de 2023) por modelo subyacente al transformer GPT-4. A diferencia de sus predecesores, puede admitir como entrada no sólo texto, sino también imágenes.

El escrito de especificación técnico de GPT-4 publicado originalmente por OpenAI (OpenAI,2023) no contenía información sobre la arquitectura, el hardware, la base de datos o los métodos de entrenamiento utilizados. Sin embargo, en el verano de 2023 fueron filtrados detalles técnicos del mismo en las redes sociales. Son estos los que procedemos a exponer en los siguientes párrafos.

Arquitectura de GPT-4

De acuerdo con dichas filtraciones, el nuevo modelo tiene nada menos que 1,8e12 de parámetros, frente a los 1,75e11 de GPT-3 (casi 10 veces más). Sin embargo, esto no se traduce en unas mayores exigencias de poder computacional, en la medida en que GPT-4 utiliza el sistema Mezcla de Expertos (Mixture of Experts, MoE), en virtud del cual hay 16 redes paralelas, denominadas expertos, cada una de las cuales está dotada de 1,10e11 parámetros y se especializa en una tarea determinada, como la generación de texto, la traducción a máquina o la programación. Una suerte de compuerta (gate) determina por cuál de los 16 expertos atravesará la información procedente de la entrada. Los parámetros de las unidades de atención ascienden a 5,5e10 parámetros, y son compartidos por todos los expertos.

El número de módulos de transformer pasa de 96 a 120.

Mezcla de Expertos, la arquitectura que supuestamente subyace al modelo GPT-4

En sistema de Mezcla de Expertos, varias redes, que funcionan en paralelo, se especializan en la realización de una determinada tarea (generar prosa, programar código, componer poemas, traducir a máquina, etc.). Un mecanismo de compuerta (gate network) determina por cuál o cuáles de ellos va a pasar la información.

Entrenamiento de GPT-4

Para el entrenamiento de GPT-4 fue utilizada una base de datos de unos 1,3e10 tokens. La ventana de contexto tenía una dimensión de 8 kilobytes durante el preentrenamiento y de 32 kilobytes tras el afinamiento. El tamaño de los lotes se incrementaba progresivamente a medida que avanza el entrenamiento, hasta llegar a los 16 megabytes. Se utilizaron 2 épocas para los datos consistentes en texto y 4 para el código.

El entrenamiento al completo se hizo en 25.000 GPUs A100 de Nvidia durante 90 a 100 días, costando unos 63 millones de dólares. Sin embargo, si se hubieran utilizado las GPUs más avanzadas de la actualidad (H100), el costo se habría reducido a 21 o 22 millones de dólares.

Dado que GPT-4 se basa en la predicción del siguiente token (next token prediction) lo más probable es que la función de pérdida siga siendo la entropía cruzada, como en los modelos anteriores de la serie.

Eficiencia del modelo

Aunque el escrito de especificación técnica de GPT-4 no contenía detalles sobre el funcionamiento interno del modelo, sí que ofrecía una amplia descripción de sus capacidades y eficiencia.

Pruebas de referencia

GPT-4 fue sometido a las pruebas de diversos benchmarks (colecciones de ejercicios) como MMLU (preguntas de múltiple respuesta), HellaSwag (razonamiento de sentido común), AI2 Reasoning Challenge (ARC, preguntas de ciencia de nivel de instituto), WinoGrande (estructuras anafóricas), HumanEval (programación en Python), DROP (comprensión lectora y aritmética), GSM-8K (matemáticas a nivel de instituto) entre otras, obteniendo en casi todos los casos resultados superiores a los del estado de la técnica. Además, con el objetivo de medir las capacidades del modelo en otras lenguas, MMLU fue traducido usando Azure Translate. Se encontró que GPT-4 obtenía resultados superiores a los de los transformers Chinchilla y PaLM (de Google) no sólo en inglés, sino también en otras lenguas con pocos recursos disponibles como el letón, el galés o el suahili.

GPT-4 fue sometido además a diversos exámenes profesionales, logrando aprobar todos ellos con unas notas superiores a las de GPT-3. Es notable el hecho de que lograra superar el examen de abogacía estadounidense (Uniform Bar Examination) con una puntuación que lo situó en el décimo más alto de todos los examinandos.

Aluncinaciones

Entre las principales limitaciones de GPT-4 se encuentra el hecho de que, al igual que otros transformers, padece alucinaciones, es decir, proporciona datos inexactos o, directamente, inventados, aunque este problema se ha reducido respecto a otros modelos anteriores de la serie. Además, GPT-4 carece, por lo general, de conocimientos posteriores a su fecha de pre-entrenamiento (septiembre de 2021), no es capaz de aprender de la experiencia, tiene dificultades en la resolución de problemas duros y el código que produce a menudo muestra vulnerabilidades.

Con todo, es de reseñar que el modelo controla de una manera más eficiente los contenidos sensibles y durante su entrenamiento el mecanismo de aprendizaje reforzado RLHM parece funcionar de un modo mucho más eficiente que en GPT-3.

Conclusiones

La aparición de GPT-4 ha supuesto, sin duda, un gran paso en el despliegue de sistemas de IA eficientes y seguros. Sin embargo, el coste computacional del entrenamiento de los modelos más modernos de GPT está deviniendo crecientemente fuera del alcance de las pequeñas empresas, y no digamos de los ciudadanos particulares. Se trata de un proceso centralizador que parece ir en dirección inversa a la descentralización favorecida por otras tecnologías de la Tercera y Cuarta Revoluciones Industriales, como blockchain o la propia Internet. Sólo el tiempo dirá si es posible revertir este proceso mediante la creación de arquitecturas de lenguaje eficaces pero mucho menos costosas en términos de computación.

TALLER

ÚLTIMOS ARTÍCULOS