Integración de texto e imagen: generalidades

Rubén Rodríguez Abril

Los sistemas multimodales integran información de audio, texto y sonido, combinando  Visión Artificial y Procesamiento de Lenguaje Natural. Se emplean en tareas como la síntesis de imágenes a partir de texto, respuesta a preguntas sobre imágenes y descripción de escenas. A nuestro juicio, la integración multimodal es un paso hacia la Inteligencia Artificial General.

Sistemas multimodales: planteamiento del problema

Los sistemas multimodales requieren de la integración de información procedente de fuentes muy heterogéneas (audio, texto, sonido). Como consecuencia de ello, su desarrollo ha puesto en contacto disciplinas como la Visión Artificial o el Procesamiento de Lenguaje Natural, que hasta hace muy poco tiempo han tenido un desarrollo independiente entre sí. En la actualidad, este tipo de sistemas son empleados en múltiples tipos de tareas, como la síntesis de imágenes a partir de descripciones textuales, la respuesta a preguntas sobre a una imagen, la lectura documentos manuscritos e ilustrados, la descripción de escenas y muchas otras.

A nuestro juicio, la integración multimodal es un paso necesario hacia la Inteligencia Artificial General (AGI). En los vertebrados las funciones cognitivas son centralizadas en un único órgano, el encéfalo. Y algo análogo está comenzando a suceder en el algunos ámbitos de la Inteligencia Artificial, en los que han surgido modelos capaces de procesar información de procedencias muy heterogéneas.

A priori, aunque el tipo de información que procesan los sistemas visuales (redes convolucionales) y los de procesamiento lingüístico (redes neuronales recurrentes, transformers) es diferente, sin embargo, hay poderosas similaridades entre sus arquitecturas: En todas ellas, está presente un tipo de capa (convolución en la visión artificial, mecanismo de atención en el procesamiento de lenguaje natural) que extrae de una manera eficiente patrones en la información. En ambos casos, el estado interno de la máquina viene descrito en el marco de hiperespacios de centenares o miles de dimensiones, cuyos vectores almacenan información semántica de alto o bajo nivel. De lo que se trata es de construir hiperespacios de características comunes para todo tipo de información.

Los sistemas multimodales pueden dividirse en dos grandes grupos: los que extraen información lingüística de las imágenes (images to text) y los que sintetizan imágenes a partir de texto (text to image).

De texto a imágenes

Históricamente, los sistemas que transforman texto en imágenes surgieron a partir de las GANs condicionadas. Una GAN (Generative Adversarial Network) se compone de dos redes: una red generadora, que crea una imagen, y la red discriminadora, que trata de averiguar si la imagen que se le presenta es real o generada por la otra red.

En una GAN condicionada, el usuario da instrucciones al generador para que sintetice una imagen partir de datos auxiliares que pueden consistir en una silueta, un bosquejo o un esquema tridimensional. El trabajo Reed et al de 2016 fue el que por primera vez creó una red capaz de sintetizar imágenes a partir de descripciones textuales. Precisamente porque fue el primer modelo de texto a imagen y ofrece un esquema simplificado sobre cómo funcionan los modelos de su género, nos detendremos a analizar su funcionamiento.

Tal y como se puede ver en la imagen, el generador toma dos entradas: a) ruido gaussiano y b) una descripción textual codificada por la función φ. Capas alternas de convolución y aumento de resolución van creando progresivamente una imagen.

La red discriminadora toma una imagen y debe de determinar si se corresponde con la descripción ofrecida. La información textual, codificada, es introducida es la penúltima capa (densa) de la red.

Figura 1. Esquema de una GAN condicionada por una descripción textual. El ruido z, que proporciona entropía y elimina el determinismo del sistema, es normalizado. La cadena de texto es utilizada por ambas redes para realizar su función. Fuente: Reed et al.

Como función codificadora, los sistemas de texto a imagen solían utilizar la convolución de una sola dimensión, en la que el kernel es desplazado a lo largo de la cadena de texto o las redes neuronales recurrentes, muy utilizadas en los años 2015 y 2016 en las traducciones a máquina.

El algoritmo de entrenamiento utilizado por Reed et al era, esquemáticamente, el siguiente:

a) El generador, alimentado de ruido y de una descripción textual codificada crea una imagen.

b) Al discriminador es alimentado con tres pares: Imagen real-descripción correcta, imagen real-descripción correcta, imagen sintetizada-descripción. En todos los casos, debe otorgar una puntuación del 1 al 0. Sólo en el caso en que se trate de una imagen real acorde con la descripción, la verdad subyacente será 1. En el resto de los casos, será 0.

c) Tras ello, el gradiente de la función de pérdida es retropropagado.

La función de pérdida del discriminador es:

LD = log (sr) + (log(1-sw) + log(1-sf))/2

donde st es la puntuación otorgada por el discriminador al par imagen real/texto real, sw la del par imagen real/texto erróneo y sf la puntuación asignada al par imagen sintética/texto real.

La función de pérdida del generador es, sencillamente:

LG = log(sf)

En todos los casos, la función de pérdida (que siempre es negativa) es maximizada.

Figura 2: Descripción del algoritmo de entrenamiento GAN-CLS, utilizado por Reed et al.

De imágenes a texto

Aunque los primeros intentos de combinar información lingüística y gráfica se remontan a los años 2011 y 2012, fue en el año 2015 cuando aparecieron por primera vez modelos capaces de generar descripciones de una imagen o responder preguntas sobre el contenido de la misma. En la mayoría de los casos, se trataba de un modelos que superponían una red neuronal recurrente (por lo general LSTM) sobre una sección de capas convolucionales. Durante el entrenamiento de los mismos se utilizaban imágenes de la base de datos MS COCO, acompañadas de sus descripciones.

A partir de 2017, con la aparición de los transformers la disciplina del procesamiento de lenguaje natural experimentó un extraordinario impulso. Los sistemas de imágenes a texto no fueron ajenos las innovaciones, y también en ellos surgieron modelos que incorporaban la arquitectura de transformers: es el origen los denominados modelos de lenguaje visuales (Visual Language Models, VLMs), que analizaremos en nuestro próximo artículo.