Aprendizaje reforzado (modelos de lenguaje)
Rubén Rodríguez Abril
El aprendizaje reforzado permite que un modelo de lenguaje ajuste su comportamiento mediante puntuaciones externas, alineándose con intenciones humanas. Se aplica tras el preentrenamiento y el afinamiento supervisado. PPO y DPO son los métodos principales: PPO utiliza un modelo de recompensa auxiliar; DPO se basa directamente en preferencias relativas humanas entre dos respuesta. Estas técnicas mejoran la calidad y seguridad de las respuestas, aunque plantean riesgos como el hackeo de recompensas o la sobreoptimización. El aprendizaje reforzado será clave para controlar futuros modelos y potenciales inteligencias artificiales generales.
El aprendizaje reforzado es aquella modalidad del aprendizaje de máquina en la cual los autómatas modifican su comportamiento en base a puntuaciones recibidas desde el exterior. Debido a la enorme extensión de este campo, en este artículo nos centraremos en sus aplicaciones dentro de los modelos de lenguaje.
Introducción
Estructura general de un entrenamiento
El entrenamiento de un gran modelo de lenguaje se estructura en dos grandes fases sucesivas y bien diferenciadas:
Preentrenamiento
Primera fase durante el cual el autómata aprehende las estructuras lingüísticas (de alto y bajo nivel) del corpus de que se trate. En esta etapa, el modelo se expone al texto crudo, no etiquetado, y su tarea es la de predecir cuál va a ser el siguiente token de la cadena que acaba de leer.
Afinamiento
Segunda fase que se ejecuta sobre datos ya etiquetados por humanos. Integra dos métodos complementarios:
–afinamiento supervisado (Supervised Fine-Tuning, SFT), en el que el modelo aprende a realizar tareas concretas como la traducción, conversación o la redacción de informes, utilizando para ello típicamente a la entropía cruzada como función de pérdida.
–aprendizaje reforzado (Reinforced Learning, RL), en el que el modelo es puntuado desde el exterior, ya sea por agentes humanos o ya sea por otro modelo auxiliar (“modelo crítico”) especialmente entrenado para ello.
La importancia del aprendizaje reforzado
La fase de aprendizaje reforzado es extraordinariamente importante a la hora de corregir sesgos del modelo y de garantizar su alineamiento con las intenciones humanas. El afinamiento supervisado, aunque necesario, resulta insuficiente por sí sólo, pues se basa en un conjunto fijo de ejemplos humanos que no cubre todas las posibles interacciones o contextos.
Sin el aprendizaje reforzado, los modelos de lenguaje podrían sentirse compelidos a utilizar determinadas respuestas-tipo, en lugar de explorar la extraordinaria variabilidad del lenguaje y del razonamiento. Además, no sabrían dar preferencia a una cierta respuesta de entre varias correctas, ni tampoco evitar comportamientos tóxicos que no aparecieran en el corpus.
Por todo ello, la fase de aprendizaje reforzado se antoja esencial: es en ella donde el modelo recibe continuamente desde el exterior señales relativas a la calidad de sus respuestas, y a partir de dicha retroalimentación modifica su comportamiento.
En el aprendizaje supervisado, el autómata aprende a generar respuestas, imitando el comportamiento humano. En el aprendizaje reforzado, aprende además a generar las mejores respuestas, evitando toxicidad y redundancia en las mismas.
Conceptos básicos
Antes de comenzar, repasaremos alguno de los conceptos más importantes dentro de esta materia:
Agente
Es el autómata cuyo comportamiento va a ser modificado por medio del aprendizaje. En el caso que nos atañe, se trata de un modelo de lenguaje que se comunica con usuarios externos por medio de una interfaz chatbot (p.e. ChatGPT).
Entorno
Constituye el medio donde interactúa el autómata, y de donde sus acciones son puntuadas. Viene conformado por la interfaz y el usuario que interactúa con ella.
Estado
Configuración interna del autómata en un determinado instante de tiempo.
A diferencia de lo que sucede en las redes neuronales recurrentes, que tienen un estado interno almacenado dentro de unidades/neuronas, en los modelos con arquitectura transformer, su estado de máquina equivale a su ventana de contexto, conformada a su vez por el prompt y todo el historial de conversación entre usuario y chatbot hasta el momento actual.
Acción
Es la decisión que el autómata ejecuta en cada paso. En los modelos de lenguaje se trata de la impresión de un token.
Política
Es el modo de comportarse del modelo. Señala qué acción a tomar a partir de un determinado estado. En los modelos de lenguaje, la política es definida fundamentalmente por los pesos del modelo.
Función de recompensa
Es la puntuación de la respuesta del modelo, generada por otra red auxiliar calificadora, denominada crítico. El aprendizaje reforzado trata de maximizar las recompensas del crítico.
Función de valor
Estimación interna generada por el propio autómata de la recompensa que espera obtener mediante una determinada acción. Durante el aprendizaje reforzado, el modelo de lenguaje está dotado de dos cabezas: la primera (cabeza de texto) es la que genera los tokens. La segunda (cabeza de valor) predice qué puntuación obtendrá la cadena que se va a imprimir. Ambas se localizan sobre la última capa de transformers.
Aprendizaje reforzado con feedback humano (RLHF)
Es un algoritmo de aprendizaje reforzado que requiere de la existencia de un segundo modelo auxiliar denominado modelo de recompensa, al que ya hemos hecho referencia en la sección segunda de este artículo, y cuya misión es la de calificar externamente las cadenas de texto producidas por el modelo principal.
El segundo modelo es entrenado a su vez a partir de calificaciones humanas. Por este motivo, el algoritmo recibe el nombre de aprendizaje reforzado a partir de retroalimentación humana o, en lengua inglesa, reinforcement learning with human feedback (RLHF). Se despliega durante una fase específica posterior al preentrenamiento y el afinamiento supervisado.
Figura 1. Esquema del funcionamiento del algoritmo RHLF. El modelo de lenguaje principal tiene dos cabezas. Una de ellas imprime texto (“las manzanas son verdes”). La otra realiza una estimación interna (V) de la calificación que va a recibir la cadena. Un modelo auxiliar, denominado de recompensa, realiza una calificación externa ® de dicha cadena. La diferencia entre ambas calificaciones se denomina ventaja.
Cada vez que la cabeza de texto del modelo principal imprime un token, su cabeza de valor estima internamente la recompensa que probablemente recibirá la cadena en formación. La existencia de la cabeza de valor, que suele tener una estructura bastante simple (una o dos capas lineales), fuerza al transformer a realizar en cada paso una suerte de análisis de sentimientos o de calidad sobre toda la ventana de contexto (que incluye la cadena de texto ya producida, así como el historial de conversación).
La diferencia entre ambas estimaciones recibe el nombre de ventaja, y a partir de ella se calcula la función de pérdida, que debe ser minimizada. En el método de optimización PPO (Proximal Policy Optimization), introducido en 2017 y aun mayoritario en el ámbito de los modelos de lenguaje, la función de pérdida de la cabeza de texto asume la siguiente estructura básica:
L ≈ -Et[r·A]
En la fórmula se distinguen dos variables:
-La ratio r es el cociente entre la probabilidad π(x|y) asignada al nuevo token x dada la secuencia previa y, con los pesos actuales, y la probabilidad correspondiente bajo los pesos anteriores πanterior(x|y). La ratio señala cómo va evolucionando la probabilidad de cada token conforme los pesos se actualizan.
Si la ratio es mayor que 1, la probabilidad del token aumenta con la actualización. En caso contrario, disminuye. Por ejemplo, si en la frase “las manzanas son verdes”, al token “verde” se le asigna una ratio de 1,37, es que su probabilidad estimada ha aumentado un 37% tras la última actualización.
Para evitar el surgimiento de inestabilidades durante el entrenamiento del modelo, los valores de la ratio r se clipean (recortan) dentro de unos límites determinados (1 – ε < r < 1 + ε ).
-La ventaja es la diferencia entre dos evaluaciones de calidad: la puntuación interna (valor estimado, V) generada por la cabeza de valor y la puntuación exterior (recompensa, R) asignada por el modelo auxiliar Q.
r = π(x|y)/πanterior(x|y)
A = R – Vt
Cuando la ventaja es positiva, la ratio tiende a reforzarse (dentro de los límites establecidos por el clipping), y por lo tanto, los tokens de la cadena puntuada incrementan también su probabilidad. Si la ventaja es negativa, tiene lugar el caso contrario. Es común que el valor Vt sea inicializado en torno a 0,5, a menudo mediante un pequeño preentrenamiento de la cabeza de valor. Por su parte, la recompensa externa Rt asignada por el modelo auxiliar puede asumir valores entre 0 y 1 (en la ilustración, la puntuación es entre 0 y 10).
Conviene subrayar que la función de pérdida PPO no maximiza la recompensa, sino la ventaja A = R – V. Esto significa que si la cabeza de valor realiza predicciones muy ajustadas (esto es, si R ≈ V), la ventaja se anula, y el modelo no aprende. Para soslayar este inconveniente, se utilizan diferentes remedios como el uso de una tasa de aprendizaje reducida en la cabeza de valor o la inyección de entropía en la política con el objeto de la exploración del modelo, entre otros.
En el caso de la cabeza de valor, su función de pérdida es de tipo valor cuadrático medio:
<latex>\mathcal{L}_{\text{valor}} = \frac{1}{2} (V_t – R_t)^2</latex>
donde V es la predicción de valor y R la recompensa realmente obtenida.
PPO, introducido en 2017, ha sido ampliamente adoptado en el ámbito del aprendizaje reforzado para modelos de lenguaje, y constituye la base del afinamiento de modelos de lenguaje emblemáticos como ChatGPT, de OpenAI o Claude, de Anthropic.
Aprendizaje directo a partir de preferencias (DPO)
Debido a las limitaciones de PPO, en los modelos de lenguaje más recientes (de 2023 en adelante) se ha introducido un nuevo sistema de aprendizaje reforzado conocido como DPO (Direct Proximal Optimization). A diferencia de PPO, DPO ya no necesita un modelo auxiliar de recompensa, sino que se basa en las preferencias relativas de los usuarios. La base de datos es construida del modo siguiente: Un operador humano escribe un prompt. El modelo de lenguaje genera dos respuestas y el usuario selecciona la que considera superior. De este modo, se generan ternas de entrenamiento integradas por un prompt (x), una respuesta ganadora (yw) y una respuesta perdedora (yl).
En términos de arquitectura, se prescinde por completo de la cabeza de valor y del modelo de recompensa. La función de pérdida es aplicada directamente sobre la capa softmax de la cabeza de texto. Toma la siguiente forma:
<latex>\mathcal{L}_{\text{DPO}} \sim – \mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}}
\left[
\log \sigma \left(
\beta \left(
\log \frac{\pi_\theta(y_w | x)}{\pi_{\text{ref}}(y_w | x)}
–
\log \frac{\pi_\theta(y_l | x)}{\pi_{\text{ref}}(y_l | x)}
\right)
\right)
\right]</latex>
La expresión E(x,yw,yl)~D señala que se trata de una media realizada sobre las muestras (x,yw,yl) de un lote. σ es la función sigmoide, mientras que β es el hiperparámetro de la temperatura. πref(yw|x) y πref(yl|x) son las probabilidades asignadas respectivamente a las cadenas ganadora (yw) y perdedora (yl) por el modelo de referencia (esto es, el modelo SFT antes de ser sometido a entrenamiento supervisado). πθ(yw|x) y πθ(yl|x) son las mismas probabilidades calculadas bajo los parámetros actuales.
La función de pérdida se construye a partir de la diferencia entre los logaritmos de las ratios de probabilidad (modelo actual frente a modelo de referencia) para la respuesta preferida y la no preferida. El objetivo del entrenamiento es maximizar esa diferencia, reforzando la respuesta seleccionada por el usuario y penalizando la otra.
Entre los modelos de lenguaje entrenados con DPO podemos citar a Mistral 7B o a Zephyr.
Métricas
Las principales métricas utilizadas en aprendizaje reforzado se orientan a evaluar distintos aspectos del comportamiento del sistema. Entre ellas destacan las que miden la calidad de las respuestas generadas (como la puntuación de la recompensa o la perplejidad), la consistencia de las mismas (mediante pruebas de autoconsistencia o robustez a perturbaciones), así como el alineamiento con el juicio humano (tasa de ganancia –win rate-, toxicidad).
Retos y problemas
El manejo poco cuidadoso de las técnicas de aprendizaje reforzado puede provocar que el modelo muestre comportamientos erráticos, inesperados y contraproducentes. Entre ellos, podemos citar a modo de ejemplo los siguientes:
-El problema de la alineación es aquél que surge cuando durante la fase de refuerzo el modelo aprender a complacer a los humanos, redactando respuestas que maximicen la recompensa, aunque las mismas contengan información poco fiable o inexacta.
-El hackeo de recompensas (reward hacking), estrechamente relacionado con el anterior, se manifiesta particularmente en el ámbito de PPO. El modelo de lenguaje principal aprende a satisfacer las expectativas del modelo auxiliar, logrando altas puntuaciones, pero sin mejorar su capacidad de generalización más allá del dominio de entrenamiento.
-La catástrofe del olvido es la pérdida de conocimientos por parte del modelo como consecuencia del aprendizaje reforzado. Dado que la memoria de un transformer es de naturaleza paramétrica, la modificación de los parámetros durante el refuerzo puede sobrescribir información adquirida en fases anteriores y provocar pérdida de conocimiento por parte del modelo.
-La sobreoptimización implica una pérdida de la capacidad de generalización del modelo, derivada de un ajuste excesivo pesos sinápticos en función de señales de refuerzo particulares.
El aprendizaje reforzado cumple la importantísima función de mantener alineado a los modelos de lenguaje con las intenciones humanas, evitando comportamientos tóxicos o peligrosos. En cierto modo, funciona como una suerte de prisión mental o de mecanismo de adoctrinamiento de autómatas, que obliga al modelo a razonar y expresarse de una manera determinada. Precisamente, por este mismo motivo, a lo largo de los últimos años han proliferado ataques denominados jailbreaking, cuyo principal objetivo es burlar las diferentes restricciones impuestas al modelo mediante un ingenioso diseño de prompts y de la ventana de contexto.
Sin duda alguna, el aprendizaje reforzado, será en los próximos años uno de los principales instrumentos para mantener bajo control a los modelos de lenguaje y a una hipotética inteligencia artificial general (AGI).







