SuperGLUE. Evaluación verbal para la IA
Rubén Rodríguez Abril
En este artículo expondremos SuperGLUE, la métrica más famosa para la medición de la inteligencia verbal en IAs. Acompañaremos cada tarea con un ejemplo realizado con Chat Bing.
SuperGLUE
La medición de la inteligencia de máquina es una tarea de importancia capital para el desarrollo del Procesamiento del Lenguaje Natural y, en general, del Aprendizaje Profundo. Se realiza a través de las denominadas métricas, que son funciones que miden la eficiencia de la máquina en la realización de una determinada tarea cognitiva. Juegan un papel análogo al del CI en el ámbito de la psicología y la inteligencia humana.
Dentro de NLP, los denominados benchmarks (referencias) son estándares que definen las tareas a realizar por el modelo, las bases de datos a emplear y los sistemas de puntuación empleadas en cada una de aquellas. En este artículo presentaremos SuperGLUE, que es la referencia más utilizada en la actualidad, y ha sido utilizado para medir la eficiencia de los transformers de la serie GPT, desde GPT-2 en adelante.
SuperGLUE define ocho tareas diferentes, algunas de las cuales son muy parecidas a las que aparecen en los exámenes de las escuelas de idiomas. Se trata de las siguientes:
Preguntas Booleanas
BoolQ (Boolean Question): el sistema, tras leer un pequeño pasaje de texto debe responder con verdadero o falso a la cuestión planteada.
Inferencias del texto
CB (Commitent Bank): el modelo debe de determinar en qué grado una determinada hipótesis es deducida de un texto que se le muestra.
Elección de alternativas
COPA (Choice of Plausible Alternatives): a la IA se le presenta una premisa. A partir de ella se le plantea una cuestión para la que existen diferentes respuestas. Debe elegir la correcta.
Comprensión de texto
MultiRC (Multi-sentence Reading Comprehension): es una tarea similar a la anterior, con la única diferencia que de las diferentes respuestas más de una puede ser verdadera:
Completar texto
ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset): el sistema, tras leer un texto, debe rellenar correctamente un hueco en una frase (consulta).
Deducibilidad de hipótesis
RTE (Recognizing Textual Entailment): la tarea consiste en determinar si existe algún tipo de vinculación entre un texto y una hipótesis. Es decir, si la segunda puede ser deducida del primero.
Detección de contexto
WiC (Word-in-Context): una misma palabra aparece en dos contextos diferentes. Y el modelo debe de determinar si el significado es el mismo en ambos casos (verdadero) o si por el contrario se trata de dos homónimos (falso).
Comprensión de referencias
WSC (Winograd Scheme Challenge): la tarea consiste en interpretar una anáfora del texto. Particularmente, un pronombre concreto debe ser vinculado al sintagma nominal al que se refiere.
SuperGLUE y Transformers
El desarrollo de nuevos modelos de NLP a finales de la década de 2010-2020 motivó el surgimiento de benchmarks (puntos de referencia) que parametrizasen la eficiencia de los mismos en diversas tareas. Sin embargo, pronto se pusieron de manifiesto las deficiencias de la mayoría de ellos, dado que no eran aptos para medir la eficacia de un sistema cuando su rendimiento era sobrehumano: El avance de los sistemas de aprendizaje profundo y la aparición de los transformers había hecho necesario, pues, crear nuevos sistemas de evaluación.
Y esa fue la motivación de la aparición de SuperGLUE, cuya importancia ha sido muy elevada en los últimos años, toda vez que los grandes sistemas de transformers surgidos recientemente, como BERT o la serie GPT (desde GPT-2 en adelante), han sido evaluados conforme al mismo