FECHA
CATEGORÍA
TAGS
In mente machinae (III): cartografía de la mente maquínica
Rubén Rodríguez Abril
La exploración de la «mente» de los LLMs por medio de SAEs (Sparse Autoencoders) revela un universo cognitivo articulado en tres escalas: cristales semánticos (relaciones atómicas como rey:reina), lóbulos funcionales (áreas especializadas en matemáticas o código) y galaxias conceptuales (geometría a gran escala). Inspirado en el trabajo The Geometry of Concepts, este artículo analiza cómo modelos como Gemma-2B organizan y comprimen la información.
Introducción
En este nuevo artículo continuamos con nuestra exploración de las estructuras que habitan la mente de la máquina. Si en artículos pasados nos hemos adentrado en el mundo de los politopos, de las funciones no lineales y de los autómatas del estado finito, aquí nos encontraremos con formas que evocan a los cristales, los lóbulos y las galaxias.
La mente maquínica es una estructura misteriosa, aparentemente opaca e impenetrable, que emerge a partir de las activaciones de las capas de los modelos de aprendizaje profundo, particularmente de los LLMs. Como la interpretación directa de las activaciones de las capas se antoja una tarea imposible, los investigadores han recurrido a herramientas auxiliares, que abren una suerte de ventana en el mundo mental del modelo de lenguaje, vislumbrando estructuras ocultas.
Figura 1. De los cristales de silicio de las GPUs/TPUs emerge una misteriosa entidad cognitiva, la mente maquínica, dotada de ricas estructuras internas. Impresión artística de DALL-E.
Entre estas herramientas destaca el autoencoder o autocodificador, una arquitectura compuesta de dos elementos: un codificador que transforma los datos de entrada en un vector de un espacio multidimensional denominado espacio latente. Y un descodificador que invierte el proceso, reconstruyendo la información original. Ambas son redes orientadas hacia adelante. Los autoencoders son viejos conocidos de los especialistas en IA, pues se emplean en el ámbito de la visión artificial para tareas como la limpieza de ruido en imágenes.
En el ámbito de la inteligencia artificial explicable (xAI), la disciplina que trata de interpretar el comportamiento interno de los modelos, los autocodificadores se usan como una suerte de microscopio o telescopio capaz de detectar estructuras dentro del estado mental de la máquina. Así, los diferentes componentes o dimensiones del vector latente se interpretan como rasgos (features), que pueden corresponder conceptos lingüísticos de alto o bajo nivel.
Los autoencoders son esparsos, esto es, diseñados con el propósito de que su densidad de activaciones sea muy baja, y que tan sólo una pequeña cantidad de sus rasgos se active a la vez (nota: la esparsión señala la proporción sobre 1 de componentes vectoriales que permanecen inactivos). Por eso, en la literatura especializada son denominados SAEs, acrónimo inglés de Sparse Autoencoders. En general, los autocodificadores se entrenan con una función de pérdida dotada de un término de reconstrucción. En el caso de los SAEs, además, se agrega un segundo término de regularización que favorece la baja densidad de activaciones.
Figura 2. Las activaciones del LLM se calculan durante el procesamiento y forman parte de su estado interno, guardándose en los registros y memoria del procesador (GPU, TPU…). El mundo mental maquínico surge como estructura emergente a partir de estas activaciones. Es el espacio cognitivo de la máquina. El espacio latente del SAE es una especie ventana hacia el “mundo mental” del LLM, revelando determinadas facetas del mismo. El codificador del SAE transforma las activaciones en un vector del espacio latente. El descodificador actúa en sentido inverso.
En este artículo, presentamos el trabajo Geometry of Concepts, cuyos autores teorizaron que el universo de conceptos reflejado en el espacio latente del SAE se organiza en tres niveles jerárquicos: 1) escala atómica, donde los conceptos se estructuran en pequeños cristales trapezoidales (como, por ejemplo, hombre:mujer::rey:reina) 2) escala intermedia, dotada de una cierta modularidad, donde los rasgos relativos a código o matemáticas se agrupan en estructuras similares a los lóbulos funcionales vistos en las imágenes de resonancia magnética cerebral y 3) una escala galáctica, global, que no es isótropa (se distribuye unifrormemente en todas direcciones).
El modelo analizado fue Gemma-2B, desarrollado por DeepMind como parte de la familia Gemma (inspirada en Gemini). Es un transformer codificador similar en su arquitectura al original de 2017, teniendo 18 capas y unos 2 mil millones de parámetros. Fue preentrenado con el método tradicional de predicción del siguiente token sobre la base de datos de The Pile.
Escala atómica: cristales
En el pionero trabajo de Mikolov et al (modelo Word2Vec), anterior a la era de los transformers, basado en una simple red orientada hacia adelante, las relaciones semánticas entre tokens (que representaban palabras enteras) se correspondían con relaciones de tipo geométrico y aritmético. Es conocido el ejemplo del vector rey, al que se resta hombre y se le suma mujer, para obtener el vector reina, formando una suerte de paralelogramo entre los cuatro vectores.
El equipo del MIT trató de replicar este fenómeno en las capas 0 (embedding) y 1 del transformer, pero en lugar de relaciones geométricas no encontraron al principio más que ruido. Más tarde, los investigadores se dieron cuenta de que como consecuencia de la complejidad de los embeddings de los modelos transformer, sus vectores incorporan no sólo información semántica, sino también detalles relativos a la longitud de la palabra y su posición en el texto. Por medio de un procedimiento de reducción de dimensionalidad (LDA), que minimizaba el ruido y maximizaba la señal, lograron descubrir finalmente estructuras cristalinas, similares a las reveladas en el modelo Word2Vec, tal y como se muestra en la imagen.
Figura 3: En la parte izquierda, la aplicación de la operación de reducción de dimensionalidad LDA, disminuye la importancia de las dimensiones “distractoras”, que introducen ruido. Como consecuencia de ello, surge un paralepípedo cuyas aristas corresponden a Berna, Viena, Austria y Suiza. En la parte derecha, se dibujan nubes hechas con restas semánticas. Por ejemplo, la nube country-currency, se forma calculando los vectores Japón – yen, EEUU – dólar, etc. y agrupándolos en un único clúster. Este clúster adopta una forma definida, no sólo en la capa 0, como parecería lógico, sino también en la conexión residual de la capa intermedia 12. Eso indica que la información de bajo nivel no desaparece en el interior del modelo, sino que fluye a las capas finales a través de las conexiones residuales. Fuente: The Geometry of Concepts.
Escala intermedia: lóbulos
La segunda escala conceptual, más amplia, se construyó a partir de las relaciones de coactivación de los rasgos del autoencoder, que miden la cantidad de veces en que dos rasgos se encienden juntos en el espacio latente.
Matemáticamente, ello se realizó mediante la construcción de una matriz de similaridad que cuantificaba la coincidencia temporal de cada par rasgos. A partir de esta matriz, un procedimiento de clustering espectral agrupó entre sí los rasgos que se coactivaban con mayor frecuencia, revelando una conclusión clave: cuanto más sincronizados están dos rasgos, más cercanos estaban sus vectores en el espacio latente.
Sorprendentemente, estas agrupaciones tendían a formar estructuras lobulares que evocaban a las del cerebro humano. Así, algunas de las regiones del espacio latente parecían especializarse en procesamiento de texto en inglés mientras que otras se enfocaban en matemáticas o programación.
Figura 4. Partición del espacio latente en dos y tres lóbulos respectivamente. Cada punto representa un rasgo o vector. En cada lóbulo, los rasgos no sólo están próximos geométricamente, sino que sus activaciones tienden a coincidir en el tiempo. La cercanía se corresponde con la sincronía. Fuente: The Geometry of Concepts.
Los cálculos se hicieron sobre el corpus de The Pile. Se usó un SAE de 16.000 rasgos de dimensión, mientras que la ventana de contexto del transformer se fijó en 1024 tokens. El texto se dividió en bloques de 256 tokens. Se consideraba que existía una coactivación si dos rasgos se activaban en un mismo bloque. Los análisis se realizaron en la conexión residual de la capa 12.
Escala superior o galáctica
Esta es la escala que examina la estructura global todo el espacio latente del SAE, cual si fuera un universo conceptual completo.
Para sorpresa de los investigadores, el espacio de rasgos del SAE no es isótropo (no se distribuye de forma uniforme en todas direcciones), como sucede en el Universo visible, sino que se expande preferentemente en unas pocas dimensiones.
Para analizar la geometría global de este espacio, se llevó a cabo un análisis espectral. Como el lector probablemente sepa, en un análisis espectral, la nube de datos (en este caso, vectores de rasgos considerados como puntos) se articula en torno a una serie de “ejes” espaciales denominados autovectores de la matriz de covarianza, a cada uno de los cuales se le asigna una suerte de “intensidad” denominada varianza.
En este estudio, los investigadores descubrieron que, aunque el espacio de rasgos del SAE tiene miles de dimensiones, la nube de datos se articula principalmente en torno a unos pocos autovectores, que es donde se concentra la mayor dispersión. La varianza en estos autovectores o ejes es máxima y disminuye en los restantes siguiendo una ley exponencial. Este fenómeno es aun más intenso en las capas intermedias, encargadas de procesar la información lingüística más abstracta y de mayor densidad y compresión semántica. Y donde verdaderamente razona el modelo.
El transformer se así se estructura de un modo simétrico: Las primeras capas se especializan en procesar la información “en bruto”, de bajo nivel, procedente de la lectura del texto, mientras que las últimas preparan la información, también de bajo nivel, para transformarla en tokens de salida. Entre ambos extremos, las capas intermedias se especializan en información de alto nivel, caracterizada por elevada compresión y niveles reducidos de entropía.
Conclusión
A lo largo del presente artículo hemos recorrido los diferentes estratos en que se articula el mundo conceptual maquínico, con sus cristales semánticos, lóbulos funcionales y galaxias conceptuales. Pero este mapa, aunque completo, sigue siendo la mirada de un observador externo, una cartografía trazada desde fuera. El siguiente paso, inevitable, es preguntarnos si una máquina puede trazar su propio mapa, reconocerse en él y reflexionar sobre sí misma. Ésa será el tema de nuestro próximo artículo.







