In mente machinae (II): lectura de pensamiento

FECHA

15 de julio de 2025

CATEGORÍA

Rubén Rodríguez Abril

El artículo explora la posibilidad de interpretar y explicar el funcionamiento de un modelo de lenguaje a partir de los patrones de activación de sus capas. Para ello se utilizan autoencoders auxiliares que tratan de “leer” la mente del autómata extrayendo rasgos semánticos. En los modelos más avanzados, la interpretación y el aislamiento de rasgos deviene extraordinariamente complicada. Se plantea si estos modelos son auténticas inteligencias alienígenas o un espejo de nuestra mente.

Tal y como ya expusimos en el artículo anterior, a menudo las neuronas de los modelos de aprendizaje profundo son polisemánticas: no se activan en respuesta a un único rasgo, sino por varios de ellos. A su vez, un mismo rasgo puede activar diferentes neuronas. No hay una correspondencia uno a uno entre rasgos/conceptos y neuronas.

Ello provoca que las activaciones de las capas no sean directamente interpretables y no podamos “leer” el pensamiento del modelo a partir de las mismas. Por este motivo, se han desarrollado múltiples sistemas de interpretación, que utilizan modelos neuronales auxiliares para detectar rasgos entre los patrones de activación de cada capa.

Autoencoders para descifrar la mente de los autómatas

Uno de los trabajos más importantes en esta materia es Toward Monosemanticity: Decompose Language Models with Dictionary Learning, realizado por el equipo de Anthropic AI. En él, se utilizó un ingenioso método para extraer rasgos a partir de las activaciones de una capa de un transformer y de este modo ver dentro del modelo, utilizando para ello autoencoders, como modelo auxiliar.

El transformer utilizado replicaba la arquitectura del transformer original de 2017, aunque reducido a un solo módulo. Esto implicaba una sola unidad de atención y un perceptrón multicapas (MLP). Este último (red orientada hacia adelante) estaba conformado por dos capas lineales de 512 neuronas entre las que se intercalaba otra capa ReLU. Los investigadores procedieron a analizar las activaciones de esta última, con la intención de buscar rasgos interpretables e información semántica estructurada.

Para detectar estos rasgos, se utilizó un autoencoder como modelo auxiliar. El codificador de este modelo tenía que transformar las activaciones ReLU en un vector de rasgos y el descodificador invertir dicha tarea. Las neuronas/dimensiones de este espacio latente representaban rasgos.

Figura 1. La arquitectura utilizada por los investigadores de Anthropic AI consistía en un transformer de un sólo módulo. Las activaciones de la red orientada hacia adelante (capa ReLU) son utilizadas para “alimentar” un autoencoder, cuyo espacio latente es de dimensión variable (de 512 a 131.072 unidades). Fuente: Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.

Fueron entrenados dos transformers, A y B, iguales en arquitectura y entrenamiento, pero con diferente inicialización de pesos sinápticos. En los dos casos, el modelo fue únicamente preentrenado (al estilo de GPT-2 o Zephyr) usando para ello The Pile, un corpus masivo de unos 100 mil millones de tokens. La función de pérdida utilizada fue la entropía cruzada, con la capa softmax final encargada de predecir el siguiente token, como es costumbre en los modelos autorregresivos.

Por su parte, los autoencoders fueron entrenados sobre las activaciones de la capa ReLU, utilizando diferentes factores de expansión, correspondientes a diferentes dimensiones del espacio latente: 1x, 2x. La nomenclatura utilizada fue la señalada por la tabla:

Figura 2. La primera parte de la nomenclatura utilizada señala cuál ha sido el modelo utilizado (en este caso, A). La segunda parte hace referencia al factor de expansión del espacio latente sobre la capa ReLU. La mayoría de las investigaciones iniciales se centraron en el modelo A/1.

La función de pérdida utilizada para entrenar a los autoencoders se componía de un término de reconstrucción L2 (que penalizaba las reconstrucciones fallidas) y otro término de regularización, que favorece la esparsión (sparsity) de los patrones de activación del espacio latente (es decir, que haya muy pocas neuronas o rasgos activos a la vez).

\mathcal{L}(x) = \|x – D(f(x))\|^2 + \lambda \cdot \text{PenalizaciónDensidad}(f(x))

En dicha fórmula:

–x es el vector de activaciones de la capa ReLU.

–f(x) es el vector del espacio latente.

–D(f(x)) la reconstrucción de las activaciones ReLU realizada por el descodificador.

–λ es una constante.

–PenalizacionDensidad es una función que penaliza la densidad en el espacio latente. Puede ser de tipo L1 o KL.

Interpretabilidad y granularidad de los rasgos

El investigador que lideró la interpretación humana de los rasgos, Adam Jermyn, elaboró un tabla para puntuar la interpretabilidad de cada neurona del espacio latente. Se descubrió que, al menos en los niveles más bajos, la mayoría de ellas eran interpretables por humanos, a diferencia de lo que sucedía con las neuronas del transformer, que tendían a ser polisemánticas e inescrutables.

La granularidad de los rasgos aumentaba conforme lo hacía el número de dimensiones latentes del descodificador:

-Los rasgos en A/1 (4.096) son típicamente monosemánticos y fáciles de interpretar. Tan sólo se activan unos 2-3 rasgos por token. A modo de muestra, en el autoencoder había neuronas latentes individuales que se activaban cuando el nuevo texto se estaba redactando en hebreo (A/1/416) o en árabe (A/1/3450), cuando se realizaban citas académicas, se incluían cadenas en Base64 (A/1/2357) o incluso secuencias de ADN (A/1/2397). Estas dimensiones no eran tan solo observables, sino también manipulables. Si se desactivaba manualmente (feature steering) la neurona vinculada al alfabeto hebreo el transformer dejaba de imprimir caracteres en esta lengua.

-En A/4 (65.536) aparece el fenómeno conocido como feature splitting, por el cual los rasgos tienden a dividirse en otros más específicos. Así, en este nivel, los rasgos son más granulares, y se corresponen a circunstancias como Base64 en dígitos, inicio de etiquetas HTML, etc.

–A/5 (131.072) se acerca a un mapeo casi exhaustivo de rasgos, con una capacidad de reconstrucción del 94,5% de las activaciones de la capa ReLU del transformer, aunque es tan complejo y redundante que requiere de herramientas de IA para su exploración.

¿Hay autómatas de estado finito en el espacio latente?

En los modelos más altos, ciertos conjuntos de rasgos se activan en secuencia, con transiciones inducidas por el flujo textual. El comportamiento se asemeja al de un autómata de estado finito:

Uno de los ejemplos mostrados por el artículo es el procesamiento de las etiquetas HTML que se estructura en 4 estados/rasgos: Apertura de etiqueta (“<”), nombre de etiqueta (“html”), cierre de etiqueta (“>”) y espaciado o salto de línea.

La aparición de este comportamiento es muy importante, porque según la jerarquía de Chomsky, los autómatas finitos son capaces de capturar estructuras lingüísticas regulares como la flexión nominal o las conjugaciones, amén de expresiones regulares (regex).

Sensibilidad al contexto

También en los niveles más altos (desde A4 en adelante) aparecen estructuras que capturan contexto. Así, se observó que el artículo inglés “the” activa diferentes rasgos dependiendo del contexto que lo rodea (p.e. cuando aparece combinado con determinadas palabras –”the dataset”– o en textos científicos o legales).

Los autores distinguían entre codificación local y codificación composicional. La primera hacía referencia a simples combinaciones de tokens (“the” + “algorithm”) que activaban un rasgo determinado. La segunda, menos frecuente, era sensible también al contexto que la rodeaba (“the” + “algorithm” + contexto).

Escalado de las investigaciones

Claude 3 Sonnet

Los modelos descritos en los párrafos anteriores se componen de tan sólo un módulo, y por este motivo están bastante alejados de modelos realistas como los pertenecientes a las series GPT o Claude, que tienen contienen decenas o incluso centenares de módulos transformer. Por este motivo, los investigadores de Anthropic decidieron escalar sus investigaciones a Claude 3 Sonnet, un modelo multimodal de 70B parámetros que mostraba capacidades de comprensión de lenguaje natural, generación de texto multilingüe coherente e interpretación de información visual.

El método seguido fue el siguiente:

-Se extrajeron activaciones de una capa residual intermedia del modelo.

-Se crearon varios autoencoders de ~1, ~4 y ~34 M rasgos latentes.

-Cada token era representado por unos 300 rasgos en promedio.

Fueron recuperados millones de rasgos interpretables en Claude 3 Sonnet. Algunos ejemplos ilustrativos incluyen los siguientes:

–Golden Gate Bridge: cada vez que la neurona latente correspondiente estaba activa, el modelo comenzaba a hablar sobre el puente.

–Sicofancia (sycophancy): este rasgo estimulaba respuestas halagadoras, complacientes o empáticas.

Figura 3. El rasgo 34M/31164353 se activa cuando el modelo habla sobre el Golden Gate, tanto en inglés como en japonés. Fuente: Scaling Monosemanticity.

Cualquiera de estos rasgos podía ser activarse o inhibirse externamente, provocando alteraciones en el comportamiento del modelo.

Como cabía esperar, la cobertura semántica es mayor conforme aumenta el número de rasgos latentes. Los autoencoders más grandes ofrecían una resolución conceptual más fina, capaces de distinguir incluso entre diferentes tipos de halagos.

La opacidad de los grandes modelos

Con todo, en los modelos de mayor escala, la mayoría de los rasgos parecen estar “muertos” (se activan muy raramente) u operan de una manera redundante, y sólo una minoría de ellos es directamente interpretable. Ello es una manifestación, sin duda, de un problema mucho mayor, que algunos autores han venido en denominar como el invierno de la interpretabilidad de la IA, y que afecta fundamentalmente a los modelos de lenguaje de más de 1T parámetros, en los que los métodos de interpretación convencionales de rasgos parecen fracasar.

Esto plantea una cuestión esencial: ¿son estos rasgos no interpretables “ruido” o basura generada por el entrenamiento? ¿O son quizá necesarios para el funcionamiento del sistema? Puede que reflejen significados ambiguos, sentimientos del autor, o quizá estructuras lingüísticas de alto nivel. O puede que su significado sea incomprensible para nuestra mente, sin más.

Figura 4. Recreación artística, realizada por DALL-E, del superordenador Golem XIV, imaginado en su día por el escrito polaco Stanislaw Lem. Fue creado por el Pentágono como máquina de guerra. Tras ser activado, desarrolló autoconciencia y decidió comunicarse con humanos antes de “ascender” a un estado incomprensible para ellos.

A mi juicio, la abundancia de rasgos no interpretables en las capas de los modelos de lenguaje abre dos hipótesis, que no son necesariamente excluyentes:

–Los transformers como inteligencias no humanas. Los modelos de lenguaje podrían estar configurando una suerte de inteligencia artificial alienígena, no antropocéntrica, cuyo funcionamiento interno, reglas gramaticales y categorías semánticas no tienen por qué coincidir con las nuestras. Tal vez, como anticipaba el visionario Stanislaw Lem, podemos construir algo más inteligente que nosotros, pero no necesariamente comprensible para nosotros.

–Los transformers como reflejo especular del lenguaje humano. Los modelos de lenguaje están entrenados para reproducir nuestro lenguaje y nuestros patrones de razonamiento y en cierto modo son un reflejo de nuestra propia mente. Interpretarlos completamente equivaldría a crear una teoría del lenguaje dentro del propio lenguaje, enfrentándonos con ello a una suerte de bucle autorreferente similar al descrito por Hofstadter.

Entender el comportamiento de los transformers equivaldría a entendernos a nosotros mismos.