SuperGLUE. Evaluación verbal para la IA

Rubén Rodríguez Abril

En este artículo expondremos SuperGLUE, la métrica más famosa para la medición de la inteligencia verbal en  IAs. Acompañaremos cada tarea con un ejemplo realizado con Chat Bing.

SuperGLUE

La medición de la inteligencia de máquina es una tarea de importancia capital para el desarrollo del Procesamiento del Lenguaje Natural y, en general, del Aprendizaje Profundo. Se realiza a través de las denominadas métricas, que son funciones que miden la eficiencia de la máquina en la realización de una determinada tarea cognitiva. Juegan un papel análogo al del CI en el ámbito de la psicología y la inteligencia humana.

Dentro de NLP, los denominados benchmarks (referencias) son estándares que definen las tareas a realizar por el modelo, las bases de datos a emplear y los sistemas de puntuación empleadas en cada una de aquellas. En este artículo presentaremos SuperGLUE, que es la referencia más utilizada en la actualidad, y ha sido utilizado para medir la eficiencia de los transformers de la serie GPT, desde GPT-2 en adelante.

SuperGLUE define ocho tareas diferentes, algunas de las cuales son muy parecidas a las que aparecen en los exámenes de las escuelas de idiomas. Se trata de las siguientes:

Preguntas Booleanas

BoolQ (Boolean Question): el sistema, tras leer un pequeño pasaje de texto debe responder con verdadero o falso a la cuestión planteada.

Ejemplo de pompt de Preguntas Booleanas de SuperGLUE.

Inferencias del texto

CB (Commitent Bank): el modelo debe de determinar en qué grado una determinada hipótesis es deducida de un texto que se le muestra.

Ejemplo de pompt de Inferencias de Texto de SuperGLUE.

Elección de alternativas

COPA (Choice of Plausible Alternatives): a la IA se le presenta una premisa. A partir de ella se le plantea una cuestión para la que existen diferentes respuestas. Debe elegir la correcta.

Ejemplo de pompt de Elección de Alternativas de SuperGLUE.

Comprensión de texto

MultiRC (Multi-sentence Reading Comprehension): es una tarea similar a la anterior, con la única diferencia que de las diferentes respuestas más de una puede ser verdadera:

Ejemplo de pompt de Compresión de Texto de SuperGLUE.

Completar texto

ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): el sistema, tras leer un texto, debe rellenar correctamente un hueco en una frase (consulta).

Ejemplo de pompt de Completar Texto de SuperGLUE.

Deducibilidad de hipótesis

RTE (Recognizing Textual Entailment): la tarea consiste en determinar si existe algún tipo de vinculación entre un texto y una hipótesis. Es decir, si la segunda puede ser deducida del primero.

Ejemplo de pompt de Deducibilidad de Hipótesis de SuperGLUE.

Detección de contexto

WiC (Word-in-Context): una misma palabra aparece en dos contextos diferentes. Y el modelo debe de determinar si el significado es el mismo en ambos casos (verdadero) o si por el contrario se trata de dos homónimos (falso).

Ejemplo de pompt de Detección de Contexto de SuperGLUE.

Comprensión de referencias

WSC (Winograd Scheme Challenge): la tarea consiste en interpretar una anáfora del texto. Particularmente, un pronombre concreto debe ser vinculado al sintagma nominal al que se refiere.

Ejemplo de pompt de Comprensión de Referencias de SuperGLUE.

SuperGLUE y Transformers

El desarrollo de nuevos modelos de NLP a finales de la década de 2010-2020 motivó el surgimiento de benchmarks (puntos de referencia) que parametrizasen la eficiencia de los mismos en diversas tareas. Sin embargo, pronto se pusieron de manifiesto las deficiencias de la mayoría de ellos, dado que no eran aptos para medir la eficacia de un sistema cuando su rendimiento era sobrehumano: El avance de los sistemas de aprendizaje profundo y la aparición de los transformers había hecho necesario, pues, crear nuevos sistemas de evaluación.

Y esa fue la motivación de la aparición de SuperGLUE, cuya importancia ha sido muy elevada en los últimos años, toda vez que los grandes sistemas de transformers surgidos recientemente, como BERT o la serie GPT (desde GPT-2 en adelante), han sido evaluados conforme al mismo

Deep Learning

CLIP