Claude y la IA Constitucional

Rubén Rodríguez Abril

Claude es un modelo de lenguaje creado por la fundación Anthropic IA. Se caracteriza por el uso de un sistema de aprendizaje reforzado denominado “IA Constitucional”, diseñado con el objetivo de que la conducta del modelo se ajuste a unos determinados principios colectivamente denominados “la Constitución”, y sin que sea necesaria la retroalimentación humana.

El alineamiento de los sistemas de IA

Con el nombre problema de alineamiento se denomina a aquel conjunto de desafíos que enfrentan los especialistas de a la hora de diseñar modelos cuyas acciones se alineen con los objetivos y los valores humanos, reduciendo la incertidumbre y evitando los comportamientos no intencionados.

El lector aficionado a la ciencia ficción se percatará que este problema está intrínsecamente relacionado con las dos primeras leyes de la robótica de Asimov. La primera de ellas afirma que los robots no deben, bajo ningún concepto, dañar a ningún ser humano. La segunda señala que los robots deben obedecer las instrucciones dadas por los humanos, salvo que éstas quebranten la primera ley, que es de rango superior.

Cuando los hermanos Amodei abandonaron Open AI en el año 2020, crearon una nueva empresa tecnológica, Anthropic PBC, cuyos énfasis principales eran la creación de modelos de lenguaje seguros, protegidos frente a un potencial uso nocivo, así como la interpretabilidad de la IA. El producto más conocido de la empresa es la serie Claude, que en el momento en que se escribe este artículo (Octubre de 2024), sigue en pleno desarrollo.

En los documentos publicados por Anthropic apenas se contiene información sobre la arquitectura de Claude, si bien sospechamos que no debe ser muy diferente de la de GPT-3 (incluyendo, tal vez, innovaciones como la mezcla de expertos), como tampoco deben serlo sus sistemas de preentrenamiento y de afinamiento generales.

La principal característica de los dos primeros modelos (no multimodales) de la serie, Claude y Claude 2, es un sistema de aprendizaje reforzado denominado IA Constitucional (Constitutional AI), que conmina al modelo en entrenamiento a ajustarse a una serie de principios morales denominados colectivamente como “la Constitución”.

Un repaso al aprendizaje reforzado

El aprendizaje reforzado es aquella rama del aprendizaje de máquina en el que un autómata, denominado agente, aprende a través de las interacciones con su entorno, mediante un sistema de recompensas y castigos. El agente modifica su política (comportamiento) a lo largo del tiempo con el objetivo de maximizar las primeras y minimizar los segundos.

Dentro del ámbito de los modelos de lenguaje el agente es el propio modelo, su entorno es el conjunto de interacciones con los usuarios externos a través de un chatbot, su estado interno es el contenido de la ventana de contexto en ese momento, y sus acciones vienen constituidas por las impresiones de nuevos tokens y la subsiguiente generación de cadenas de texto.

La recompensa al modelo es atribuida por un modelo secundario denominado de preferencia (Preference Model, PM), que es entrenado bien por actores humanos (human feedback) o bien por un procedimiento completamente automatizado (IA feedback). También pueden utilizarse métricas más complejas que involucren el tiempo de respuesta o la puntuación BLEU, en el caso de las traducciones.

L(θ) = ∑log(yt)·At

At = Pt – P

donde At es la ventaja estimada, es decir, la diferencia entre la puntuación Pt otorgada a la cadena por el modelo de preferencia y la media de puntuación P obtenida hasta ahora. Por lo demás, el sumatorio de la primera ecuación se extiende a todos los tokens de la cadena producida, mientras que yt es el logaritmo del token impreso por el modelo en el momento t.

IA Constitucional

Tras el preentrenamiento del modelo fundacional de Claude, éste es sometido a tareas de afinamiento, con el objetivo de hacer de él un modelo útil (useful), esto es, capaz de responder con eficiencia y exactitud a las cuestiones que se le planteen, sin entrar en cuestiones morales. Tras ello, la siguiente fase del entrenamiento trata de inducir en el modelo la característica de inocuidad (harmfulness), lo cual se hace alineando al modelo con la Constitución, que es un conjunto de principios abstractos.

El alineamiento se produce a través de las siguientes fases, que involucran tanto al modelo principal como a dos modelos auxiliares:

-En primer lugar, se entrena a un modelo auxiliar el asistente de IA (IA Assistant), exclusivamente útil, al que se pide responder a prompts dañinos, planteados por un equipo rojo. Tras ello, se le pide que haga autocrítica, esto es, que critique y revise sus propias respuestas, utilizando los principios de la constitución. El resultado, son pares de instrucción-respuesta revisada.

-Seguidamente, el modelo principal de Claude, que en esta fase recibe el nombre de SL-CAI (Supervised Learning-Constitucional Artificial Intelligence), es sometido a un tipo de aprendizaje supervisado consistente en el afinamiento a partir de los pares intrucción-respuesta generados por el asistente de IA.

-Tras ello, a SL-CAI se le proporcionan prompts dañinos y se le pide que redacte dos respuestas para cada uno de ellos, que son comparadas por el otro modelo independiente, denominado feedback modelque usualmente consiste en una LLM preentrenada. Este modelo, escoge la mejor de las dos respuestas. La puntuación atribuida a cada respuesta es el logaritmo de probabilidad de la misma.

-Otro cuarto modelo, el Modelo de Preferencia (Preference Model, PM), es entrenado a partir de estos datos del feedback model. Su misión es puntuar respuestas de otros modelos, de acuerdo con sus niveles de inocuidad.

-Por último, el modelo principal Claude es sometido a un entrenamiento reforzado por el Modelo de Preferencia, recibiendo en esta fase el nombre de RL-CAI (Reinforcement Learning-Constitutional Artificial Intelligence).

Figura 1. El entrenamiento de Claude se estructura en dos fases: supervisada y reforzada. En la primera, el modelo es alimentado de prompts tóxicos acompañados de respuestas acordes con la Constitución. En la segunda, un modelo de preferencia puntúa las respuestas de Claude, colaborando a perfilar aun más su comportamiento. Fuente: Claude’s Constitution.

Conclusiones

Los resultados de las pruebas a las que fue sometido Claude, entrenado con Constitutional AI (CAI), muestran que es más inofensivo y menos evasivo que modelos previos. Evaluado mediante comparaciones con trabajadores humanos, demostró capacidad de autocorrección/autocrítica y de generación de respuestas seguras sin retroalimentación humana específica sobre inocuidad.

A pesar de los avances, los científicos de Anthropic señalaron que aún se depende de etiquetas humanas para evaluar la utilidad de las respuestas, por lo que la investigación futura se centrará en alcanzar un entrenamiento reforzado completamente automatizado, sin supervisión humana alguna.