Lingua ignota digitalis: idiomas creados por autómatas

Rubén Rodríguez Abril

¿Cómo sería una lengua creada por autómatas desde cero? ¿Sería comprensible para los humanos? El artículo explora la posibilidad de que los autómatas puedan crear sistemas lingüísticos plenamente autónomos, que no tengan apoyo alguno en las lenguas naturales humanas. Enjambres de agentes artificiales desarrollan lenguajes emergentes en juegos cooperativos. Estos nuevos códigos contienen estructuras como proto-sintagmas, dialectos híbridos o gramáticas OVS. Se plantea si existe una “gramática cósmica” común a humanos y máquinas, y si alguna vez surgirá una verdadera lengua maquínica.

Introducción

Hasta este momento, la principal técnica de adquisición de competencia lingüística de los sistemas de aprendizaje profundo ha sido la imitación de los lenguajes naturales creados por el cerebro humano. Sin embargo, es muy probable que el lenguaje humano, desarrollado en el último millón de años, no sea la única forma de transmisión de información posible. Ni siquiera la más eficiente.

A fin de cuentas, la forma que tienen los humanos de comunicarse oralmente es bastante rudimentaria: los sonidos y fonemas se articulan con órganos que originariamente fueron diseñados para otras funciones biológicas, como la alimentación (lengua, paladar, dientes) o la respiración (faringe). Esta contingencia histórica invita a pensar que sistemas de comunicación (alienígenas o artificiales) podrían desarrollar estructuras lingüísticas muy diferentes a las nuestras y tal vez más óptimas en términos de transmisión de información.

Por otro lado, los actuales modelos de lenguaje vienen aquejados de la ausencia de anclaje sensorial (grounding) en el mundo físico. El transformer carece de acceso directo a las experiencias perceptivas que originan qualia, como la radiación electromagnética (colores), la geometría del espacio físico (orientación) o las ondas acústicas (sonidos). Toda su capacidad de razonamiento se basa casi exclusivamente en la inducción de estructuras lingüísticas del lenguaje humano, con la única excepción de, tal vez, los sistemas multimodales, cuyos espacios de características son capaces de integrar información textual y visual. Sin embargo, éstos carecen de agencia causal en el entorno, por lo que la conexión sensoriomotora sigue siendo limitada.

Todas estas razones hacen recomendable dar libertad plena a los autómatas para crear su propio lenguaje desde cero, en lugar de forzarlos a reproducir, mediante el entrenamiento con ingentes cantidades de texto, los hábitos expresivos humanos.

Teoría de juegos

La teoría de juegos se ha convertido en una herramienta clave para inducir a grupos de autómatas a desarrollar sus propios mecanismos y protocolos de comunicación, sin intervención humana directa que programe el lenguaje de antemano.

En estos entornos, los autómatas deben de colaborar en la consecución de un objetivo común, disponiendo de canales de intercambio de mensajes entre ellos. Los participantes suelen ser redes neuronales (ya sean perceptrones multicapas, redes neuronales recurrentes o transformers) y se entrenan mediante aprendizaje reforzado multiagente (MARL). En cada iteración del juego, cada autómata recibe como entrada el estado actual del juego, así como los mensajes del resto de los autómatas. La salida consiste en una acción a realizar sobre el entorno, y, en paralelo, los mensajes a enviar a los demás.

Las tareas planteadas pueden adoptar diferentes formas. En un juego referencial (referential game), por ejemplo, un agente emisor debe escoger una imagen entre varias y enviar un mensaje al agente receptor. Este último descodifica (interpreta el mensaje) y debe identificar correctamente la imagen elegida. En otros juegos, la tarea puede consistir en el desplazamiento cooperativo de un objeto: un equipo de autómatas, cada uno con un campo de visión limitado, debe localizar el objeto, coordinarse y empujarlo hacia una meta. En todos estos escenarios, la función de recompensa favorece el surgimiento de protocolos de comunicación que faciliten la realización de la tarea colectiva.

Figura 1. Ejemplo de un juego referencial. A la izquierda, un espacio de dos dimensiones se parte en dos regiones, cada una visible únicamente por un agente. Ambos reciben un conjunto de diez descripciones de la escena, y deben elegir la correcta. Los agentes intercambian información entre ellos, con el objeto de obtener una descripción clara de aquella parte del espacio 2D que no ven. Los agentes son recompensados no sólo por sus propios aciertos, sino también por los de su compañero, lo cual favorece el surgimiento de un protocolo de comunicación eficiente. A la derecha, se representan cuatro particiones diferentes del espacio, con diferentes configuraciones de objetos. Fuente: Graesser et al (2017).

En busca de una gramática cósmica, común a humanos y máquinas

De acuerdo con el consenso paleoantropológico, el lenguaje emergió durante el Paleolítico como respuesta la necesidad de coordinar actividades complejas, como la caza cooperativa, la defensa del grupo, la distribución de recursos o la transmisión de tecnologías (desde la industria lítica hasta el dominio del fuego).

Inspirándonos en este origen funcional, cabría preguntarse si podría inducirse un fenómeno análogo entre máquinas: ¿pueden enjambres de agentes artificiales, situados en entornos que exijan cooperación, desarrollar de una manera autónoma sus protocolos de comunicación? Bastaría con proveerles de un canal de intercambio de mensajes, y dejarles que ex nihilo inventen sus códigos. La tarea de los investigadores sería la de analizar desde fuera este flujo de información, en busca de patrones o incipientes estructuras sintácticas, que revelen la existencia una suerte de gramática maquínica.

De aquí surge una pregunta fundamental: de existir estas hipotéticas gramáticas plenamente artificiales, ¿serían comprensibles por los humanos? A fin de cuentas, nuestras capacidades lingüísticas y de percepción vienen condicionados por las características de nuestro sistema nervioso y órganos sensoriales. Existen, por tanto, buenas razones para dudar que los mensajes construidos por medio de una gramática alienígena (ya sea creada por sistemas exobiológicos o por máquinas) sean interpretables por humanos.

A este respecto, resulta inevitable evocar la discutida tesis de Noam Chomsky sobre la Gramática Universal: un conjunto de estructuras innatas, de origen genético y neurológico, que subyace a todas las lenguas humanas. Dicha gramática incorporaría elementos como la estructura arbórea sintáctica, los sintagmas nucleares y, de un modo crucial, la recursividad. Chomsky llegó a sostener que para un observador marciano todas las lenguas humanas serían dialectos de un mismo mensaje. Precisamente por su carácter biológicamente anclado, la Gramática Universal humana haría muy difícil la comunicación con inteligencias no antropomórficas que carecieran de ella.

500px-Portret_van_prof._dr._H._Freudenthal,_1957_(2)

Figura 2. Convencido de la posibilidad de la comunicación interestelar, Hans Freudenthal concibió en 1960 Lincos (Lingua Cosmica), un protocolo diseñado para establecer diálogo con inteligencias no humanas. Basándose en la universalidad de las matemáticas, estructuró el lenguaje de manera gödeliana: los números naturales y binarios son la base irreducible. Sobre este sustrato, se construyen de forma inductiva operandos, fórmulas y toda la lógica de primer orden. Lincos permitía incluso la formulación de postulados metalingüísticos y autorreferentes.

No obstante, visiones como las de Chomsky, Stanislaw Lem o la hipótesis Sapir-Whorf, que enfatizan la inconmensurabilidad de experiencias cognitivas radicalmente distintas, podrían ser excesivamente pesimistas. Existen razones para postular la existencia de una posible Gramática Cósmica, común a cualquier sistema comunicativo -humano, artificial o alienígena- emanada de los principios universales de la información y la computación. Algunos indicios que parecen apuntar esta conjetura son los siguientes:

-La existencia en química orgánica de sistemas de codificación, como el de las moléculas de ADN, donde los codones tienen una significación semántica (correspondencia con un aminoácido), y la presencia de prefijos prelingüísticos en los mismos.

-La recursividad como patrón recurrente en la naturaleza, desde fractales autosemejantes en vegetales como el brócoli o los helechos, al efecto Droste pasando por los fluidos turbulentos.

-El sustento formal que ofrece la jerarquía de Chomsky, que establece que, al menos desde un punto de vista teórico, los autómatas más potentes serían capaces de reconocer estructuras como las expresiones regulares, la recursión o el contexto.

Con el ánimo de especular de manera fundamentada, en las siguientes secciones exploraremos una selección de estudios publicados entre 2016 y 2025 que abordan experimentalmente la emergencia de comunicación entre agentes artificiales. ¿Hallaremos en ellos rasgos presentes en las lenguas humanas? ¡Vamos adelante con nuestra exploración!

Símbolos atómicos o morfemas - Lazaridou, Peysakhovich & Baroni (2017)

El trabajo Lazaridou, Peysakhovich & Baroni introdujo un enfoque pionero basado en juegos referenciales. En ellos, un agente (receptor) debe elegir a la imagen objetivo entre dos candidatas. Y otro agente (emisor), que conoce la respuesta correcta, debe transmitirle la información necesaria para identificarla.

La comunicación se realiza a través de un único símbolo (atómico) extraído de un determinado vocabulario predeterminado.

La arquitectura del agente emisor consiste en una red convolucional orientada hacia adelante. Su sección convolucional es similar a la de VGG-16. Su salida es una función softmax que distribuye probabilidades sobre todos los signos posibles del vocabulario. La arquitectura del receptor es un perceptrón multicapas cuya salida softmax es binaria: izquierda o derecha.

El receptor, tras recibir el mensaje selecciona una imagen. Si acierta, ambos reciben una recompensa de 1. En caso de error, la recompensa es 0.

En este trabajo, la comunicación es exclusivamente atómica, así que lingüísticamente equivaldría a la transmisión de un sólo morfema. La sintaxis es inexistente.

Estructuras OVS - Mordatch & Abbeel (2017)

En Mordatch & Abbeel (2017) los agentes se mueven a través de un espacio bidimensional y sólo pueden realizar observaciones parciales y localizadas. Deben realizar tareas como reunirse en un punto determinado o desplazar objetos. Cada agente tiene una posición y un color asignados. Puede dirigir su mirada hacia determinadas partes del espacio e interaccionar físicamente con otros objetos u objetivos.

En cada instante de tiempo, el agente emite un símbolo c, extraído de un vocabulario C de tamaño K, que se difunde a través de todo el sistema. Inicialmente, los símbolos carecen de significado. Corresponderá al entrenamiento posterior determinar el contenido semántico de cada uno.

Los agentes están implementados como perceptrones multicapas (es decir, redes no recurrentes). Su función de pérdida es calculada a partir de la recompensa obtenida. Dado que todas las funciones utilizadas son diferenciables, el gradiente de la función de pérdida se retropropaga a través de todo el enjambre.

Tras millones de episodios de interacción, emergió un nuevo lenguaje puramente maquínico, cuya gramática tenía las siguientes características:

Cada símbolo se asocia a un verbo, un objeto o un agente.

-Cuando se deshabilita la comunicación, los agentes inventan señales no verbales (como por ejemplo, moverse en círculos) para suplir la falta de lenguaje.

-Su estructura es composicional. Para describir una acción o una observación los agentes usan a menudo una secuencia de símbolos. En varios casos, cuando se trata de órdenes de movimiento, la grammatica automatica parecía mostrar una estructura OVS (objeto, verbo, sujeto), que es muy poco utilizada en las lenguas humanas, pero curiosamente está presente en el klingon, la famosa lengua de la serie Star Trek.

Figura 3. Estructura sintáctica OVS. Los círculos grandes y tenues representan los agentes. Los círculos pequeños, los objetivos. Los letreros junto a cada círculo grande corresponden a los símbolos emitidos por el agente. Cada cuadrado representa un instante de tiempo, que avanza en dirección a la derecha. El agente rojo emite sucesivamente los símbolos “rojo”, “ir_a” y “agente_verde”. Fuente: Mordatch & Abbeel (2017).

Cadenas de símbolos y proto-sintagmas - Havrylov & Titov (2018)

El artículo de Havrylov & Titov representa un paso decisivo: los agentes no se comunican a través de símbolos atómicos, sino de cadenas completas de signos. Al igual que en el caso de Lazaridou et al, dos agentes, emisor y receptor, deben resolver un juego referencial. Del conjunto de imágenes MS-COCO se escoge una de ellas y se presenta al emisor. Éste debe de enviar al receptor un mensaje m, consistente en una cadena de k símbolos extraídos de un vocabulario de 10.000 símbolos. Al receptor se le presentan entonces varias imágenes de MS-COCO, y debe elegir cuál de ellas es la correcta, a partir de la información recibida.

Figura 4. Arquitectura del emisor y receptor del trabajo Havrylov & Titov. Todas las imágenes son pre-procesadas por una arquitectura preentrenada VGG-16. La salida de su capa relu7 es utilizada para crear un vector de “embedding” que representa a la imagen. Este vector es procesado por una LSTM, el emisor. Los estados internos de éste se representan por los rectángulos azules. Los símbolos de la cadena en formación son los pequeños cuadrados naranjas. La cadena concluye cuando aparece el símbolo <eos>. El receptor, también implementado como una LSTM (con estados internos coloreados en verde), lee la cadena. Cuando llega al símbolo <eos> su estado final se compara, mediante productos escalares, con los “embeddings” de las imágenes de la base de datos. Los resultados se hacen pasar por una función sofmax para seleccionar la predicción final. Fuente: Havrylov & Titov.

Los resultados experimentales revelaron regularidades notables:

-En las cadenas de símbolos existían prefijos que se referían a tipos de objetos, como “comida” u “osos”.

-No todos los símbolos parecían tener la misma importancia: el borrado de algunos de ellos afectaba significativamente al rendimiento, mientras que otros eran prescindibles.

-Esta asimetría sugiere la existencia una suerte jerarquía interna análoga a la de los sintagmas lingüísticos, en los que existe núcleo y complementos. Así, en la expresión “el oso blanco de Siberia” el núcleo (la palabra “oso”) tiene una mayor carga semántica que los modificadores. Del mismo modo, en algunos mensajes de los agentes se perfilaba un proto-sintagma compuesto de núcleo y complementos.

Los investigadores consiguieron, además, acercar este proto-idioma maquínico al lenguaje natural usando técnicas de regularización.

Lenguas, continuums dialectales y criollización lingüística - Graesser, Cho & Kiela (2019)

En el trabajo Graesser et al se realizaron extensos estudios sobre las características lingüísticas de los protocolos de comunicación utilizados por agentes involucrados en juegos referenciales. El esquema de funcionamiento de los agentes y sus mecanismos de comunicación es el descrito en la Figura 1. Cabe señalar, además, que por lo que se refiere a su arquitectura, cada agente se compone de dos módulos de entrada (una ResNet que procesa las imágenes y una GRU que procesa las descripciones de texto), un módulo de fusión intermedio y dos módulos de salida (un módulo de valor, que asigna puntuaciones a cada descripción, y otro modulo emisor, que crea los mensajes a enviar al otro agente).

Las características de la lingua automática emergente eran las siguientes:

Asimetría en protocolos bipartitos. Cuando sólo participan dos agentes, los protocolos de comunicación no suelen ser simétricos. Cada agente no entiende su propio idiolecto (lo que él mismo está diciendo), aunque sí el de su compañero. Los idiolectos, además, son mutuamente ininteligibles.

Comunicación en poblaciones mayores. Con más de tres agentes, surge espontáneamente una lengua común. Son necesarias unas 60-65.000 iteraciones para una tasa de acierto comunicativo del 70%, y unas 150-200.000 iteraciones, para que esta tasa supere el 75%.

Lenguas híbridas y criollización. Cuando dos comunidades previamente aisladas entran en contacto entre sí surge una nueva lengua común. La comunidad de agentes demográficamente dominante es la que impone su protocolo de comunicación. Si las comunidades son del mismo tamaño, surge una lengua híbrida.

Continuum lingüístico. En cadenas de múltiples comunidades conectadas, se observa un continuum donde la inteligibilidad es alta entre vecinos pero decae con la distancia geográfica. Las topologías densas homogenizan el lenguaje.

Figura 5. Convergencia lingüística entre comunidades. A la izquierda, dos comunidades inicialmente aisladas desarrollan protocolos de comunicación mutuamente ininteligibles. A partir de las 104 partidas (imagen de la derecha) las comunidades se ponen en contacto. Conforme avanza el juego, el número de comunicaciones exitosas se hace mayoritario, lo que apunta al surgimiento de un protocolo de comunicación común. La inteligibilidad es mayor en los agentes puente (“bridge agents”) que están en contacto con la comunidad vecina. Fuente: Graesser et al.

Arquitectura transformers - Mannan Bhardwaj (2025)

Mannan Bhardwaj, investigador independiente con base en Estados Unidos, propuso por vez primera en el año 2025 el uso de transformers en la comunicación entre agentes.

Figura 6. Cada agente se compone de un único módulo transformer dotado de atención multicabeza y perceptrón multicapas. Además, el emisor contiene una cabeza encargada de imprimir la cadena de símbolos (ci). El receptor contiene otra cabeza encargada de determinar qué acción tomar (ai). Además, ambos agentes contienen otra cabeza, el crítico, encargada de realizar una tarea de autovaloración, necesaria para el aprendizaje reforzado. Fuente: Mannan Bhardwaj (2025).

El trabajo analiza la dinámica entre dos redes basadas en transformers, el emisor (speaker) y el receptor (listener), que deben de comunicarse para resolver diferentes juegos cooperativos:

Lenguaje simbólico simple. El emisor observa una letra (A,B,C) y puede enviar al receptor una cadena de hasta 3 símbolos de un vocabulario pequeño (a,b,c). Con pocas observaciones, se observan correspondencias claras (A → aa, B → bb).

Formas y colores. El entorno es un retículo de 3×3 celdas en el que se forman diferentes imágenes (en varios colores) como cuadrados, diagonales, cruces, líneas verticales o Ts. Los agentes desarrollan un código en el que los colores tienden a representarse letras y las formas por patrones secuenciales. Así, “eee”, “aaa” representan una T roja y una T azul respectivamente.

Lenguaje espacial. Se toma una cuadrícula de 9 celdas. Un agente (observador) contempla todo el espacio. El otro agente (rescatador) debe moverse y acceder a una celda donde se encuentra una superviviente. El observador comunica al rescatador dónde debe realizar el rescate mediante una cadena de 3 caracteres (con un vocabulario de tamaño 3). Si no existen obstáculos, la comunicación es eficiente. Si existe un obstáculo que debe ser sorteado por el socorrista, la comunicación deviene ineficiente. Esto es así, porque el observador no sólo debe codificar la posición del superviviente (entre 9 casillas) sino también la del obstáculo (entre 8 casillas no solapadas). En total, son 72 configuraciones distintas, que deben ser codificadas entre 27 cadenas posibles (3 caracteres, sobre un vocabulario de tamaño 3). En este caso, el emisor no es capaz de realizar la compresión de la información de un modo efectivo y el rendimiento de la comunicación decae.

Figura 7. Ejemplo de rescate. La casilla amarilla representa al rescatador, el triángulo rojo al superviviente mientras que la X es el obstáculo. El observador debe proporcionar al rescatador suficiente información para guiar al rescatador a la casilla correcta. Fuente: Mannan Bhardwaj (2025).

Si bien los resultados obtenidos por Bhardwaj son modestos, ello se debe a que al tratarse de un investigador independiente no pudo entrenar modelos con un gran número de parámetros, por lo que tuvo que limitarse a utilizar transformers de tan sólo una cabeza de atención, muy inferiores a los modelos contemporáneos. Con todo, su trabajo tiene el valor de haber sido el primero en utilizar la arquitectura de transfomers en la intercomunicación de máquinas, abriendo un camino que posteriormente se exploraría con mayores recursos y entornos más complejos.

Conclusión

Los trabajos presentados con anterioridad resultan particularmente fascinantes, porque muestran que las máquinas, en principio son capaces de diseñar protocolos de comunicación ex nihilo, sin intervención humana. Hemos navegado a través de estructuras lingüísticas exóticas, como construcciones OVS, raras en lenguas naturales pero presentes en códigos maquínicos, o protocolos unidireccionales, en los que el hablante literalmente no interpreta el significado de sus propios mensajes.

Redes Neurales y Misterios Cósmicos

Figura 8. Lingua ignota digitalis. De la capa de salida de una red neuronal surgen símbolos ignotos, incomprensibles para la mente humana. Impresión artística de DALL-E.

En el plano práctico, todas estas investigaciones abren la posibilidad de crear enjambres de autómatas que se coordinen entre ellos:

-drones autónomos que ejecutan tareas de reconocimiento o ataque a objetivos militares.

-robots industriales que coordinan sus actividades sin supervisión humana.

-agentes virtuales que cruzan datos.

En todos estos escenarios, los miembros del enjambre elaboran por sí mismos un nuevo lenguaje automático, sin necesidad de que sea programado por un humano.

No obstante, conviene reconocer que las capacidades lingüísticas observadas son aún embrionarias. Los entornos son muy simples y los resultados son discretos (ausencia de recursión y sensibilidad al contexto). Estas limitaciones pueden deberse en gran medida al uso de arquitecturas de procesamiento de lenguaje natural poco potentes, como las RNNs de los antiguos modelos seq2seq o transformers dotados de tan sólo un módulo. El tiempo dirá si, una vez que se usen recursos computacionales más ambiciosos y arquitecturas más profundas, surgirá de entre los autómatas una verdadera lengua maquínica.

SERIES