La Información de Shannon

David Baños Abril

Los años 40 y 50 inauguran una nueva era tecnológica de la humanidad, el momento histórico en el que el vínculo entre el Hombre y la Máquina se estrecha con la aparición de las primeras computadoras. Pero en la comunicación con las máquinas, se hizo necesario un modelo preciso de qué contenidos podíamos compartir con ellas, cómo podíamos representarlos de forma eficaz, y que medios podrían usarse para ello… entonces apareció el concepto de «información» de Shannon.

¿Qué buscamos medir?

En cada instante, emisiones electromagnéticas procedentes de los más alejados y recónditos puntos del universo alcanzan nuestro planeta. Desde hace algunos años, han existido proyectos para escudriñar el cielo con la esperanza que, entre todas las señales que recibimos del Cosmos, exista alguna que destaque sobre el resto. Una señal que nos haga pensar que su origen no es un fenómeno natural, sino un intento por establecer comunicación por parte de seres inteligentes.

¿Qué estamos realmente buscando? Una civilización extraterrestre no compartiría con nosotros ninguna pauta lingüística. No podemos suponer que tengan un lenguaje si quiera parecido al que usa nuestra especie. Si quisieran darse a conocer como una raza inteligente, su única posibilidad sería captar nuestra atención de alguna manera, hacer que la señal que nos llegue sobresalga de entre el ruido de fondo que emiten todo tipo de astros. Imagínese encontrarse en la oscuridad de la noche y, de repente, en vez de oír los cantos de los grillos o el croar de las ranas, escucha las icónicas cinco notas de «Encuentros en la tercera fase». Una reacción de sorpresa como esa, como bien ejemplifica la famosa «señal Wow!», debería ser el desencadenante de cualquier posible  diálogo interestelar.

En este artículo introduciremos la noción de información como un modelo que describe el grado de singularidad y significación de un acontecimiento. Apoyado en esta vaga definición, será conveniente que el lector iniciado aparque a un lado cualquier otra interpretación que tenga del concepto. Como veremos, trataremos la información como una abstracción matemática que no corresponde con otros usos coloquiales del concepto.

Información de Shannon

Lo que buscamos en este artículo es explorar el interpretación matemático de información, tal y como fue propuesto por Claude Shannon en 1948. Para distinguirlo de otras acepciones, el concepto cibernético de información es conocido también como información de Shannon, o también self-information.

No queremos simplemente apuntar la ecuación de información de Shannon. No aportaríamos nada que no pueda conseguirse en une breve búsqueda por Internet. Queremos que el lector comprenda porqué la ecuación es de la manera que es. Para ello vamos a detallar qué principios intuitivos queremos formalizar con nuestro modelo matemático.

Lo primero es que, por el momento, restringiremos nuestro modelo a mensajes discretos, es decir, aquellos formados por un número finito de unidades indivisibles. Dejamos fuera por tanto todo tipo de ondas electromagnéticas. Además, buscamos reflejar la circunstancia de algo inesperado, es decir, cuanto más impredecible sea un evento, mayor cantidad de información aporta. También buscamos que la información conjunta de varios eventos individuales sea la suma de la información de todos ellos, es decir, que la información crezca linealmente respecto al tamaños del mensaje. Procederemos en este artículo a explicar qué herramientas matemáticas usamos para precisar estos dos principios.

Información y Probabilidad

Hemos hablado antes de que una señal significativa debe generarnos sorpresa. Si tradujéramos esta reacción a un lenguaje matemático estaríamos hablando de probabilidades: nos asombramos cuando presenciamos un acontecimiento cuyas probabilidades de ocurrir son mínimas. Ver una estrella fugaz en el cielo nocturno es poco probable, pero sería aún más impactante ver una nave alienígena. Todos nuestros esquemas acerca del universo, la vida y nuestra presencia en el Cosmos se verían alterados si tal cosa ocurriese. Esta circunstancia es el que buscamos idealizar con la noción de información.

La inversa de la probabilidad

Un evento no aporta ninguna información si su probabilidad de ocurrencia es máxima, \frac{1}{1} (por ejemplo, cualquier obviedad como la probabilidad de obtener un número entre el uno y el seis de un dado de seis lados). La información será máxima cuando la probabilidad se acerque a 0 y sea un evento altamente improbable (como que se confirme un contacto alienígena mientras lee este artículo). Por tanto, la información es inversamente proporcional a la probabilidad del suceso.

Matemáticamente expresamos esto por medio de la inversa de la probabilidad p, es decir: 1/p. Así, si la probabilidad de que salga cara al arrojar una moneda es \frac{1}{2}, la inversa será 1/\frac{1}{2}, que es equivalente a \frac{2}{1}, igual a 2.

Para elecciones unitarias de igual probabilidad, la inversa de la probabilidad refleja el número de alternativas posibles de un suceso, es decir los grados de libertad por escoger. Para un dado de seis lados, evidentemente este número es seis, y efectivamente 1/\frac{1}{6} = 6.

Combinación de sucesos

Pongamos que estamos ante un programa que genera letras de forma aleatoria y que las 27 letras del alfabeto tienen todas la misma probabilidad de salir. Dicha probabilidad es de \frac{1}{27}, y su inversa 27.

Podemos hacer que en vez de generar una letra aleatoria nos genere varias de ellas, cada una en una posición. Lo que nos interesará ahora es conocer la probabilidad de que aparezca una de las posibles combinaciones, es decir una palabra. Esta probabilidad será la misma para cualquiera de las alternativas.

Para saber exactamente cuál es esa probabilidad, tendremos que conocer el número de estas palabras posibles ¿Cuántas combinaciones diferentes podemos crear con 27 letras y cuatro posiciones? Por cada letra seleccionada en una posición existen 27 posibilidades en la posición siguiente. Así que la operación matemática necesaria es la potenciación:

27×27×27×27 = 27^4 = 531441

Vemos que existen más de medio millón de posibilidades. Evidentemente, la mayoría serán palabras como WKVJ o SELV, que no tienen ningún significado. Pero el contenido semántico no es algo que nos debiera preocupar. Lo importante es la probabilidad de ocurrencia, que ahora sabemos que es p = \frac{1}{531441} para cualquiera de las palabras.

El logaritmo

En adelante en este artículo, será más fácil restringir los posibles símbolos a solo dos, como hace el Código Morse. Podemos usar la numeración binaria, lo que resultará en mensajes como 0010, 1010, 1011, etc… Esto no modifica en absoluto la lógica subyacente, pero nos permite lidiar con números más pequeños que usando las 27 letras del alfabeto y nos acerca al verdadero lenguaje de las computadoras. Así, la cantidad de posibles mensajes usando tres dígitos por mensaje será:

2×2×2 = 2^3 = 8
Permutaciones por mensajes en numeración binaria

Si fueran cinco dígitos por mensaje, serían

2×2×2×2×2 = 2^5 = 32

Podemos ver que esto es equivalente a 2^2 multiplicado por 2^3

(2×2)×(2×2×2) = 2^2 × 2^3 = 2^5

En otras palabras, multiplicar potencias de la misma base equivale a sumar los exponentes. Esta propiedad de convertir la multiplicación en suma es la que da sentido a la herramienta matemática conocida como logaritmo o log.

log  2^{2} = 2       log  2^{3} = 3    

log  2^{2} + log  2^{3} = log  2^{5} = 5

No especificamos la base pues ya hemos dejado claro que nuestro alfabeto consta de solo dos posibles símbolos: 0 y 1, es decir, una base igual a dos.

Logaritmo e información

En resumen, para una mensaje formado por n dígitos, y usando la numeración binaria, el número de posibles mensajes generables es 2^{n}. Esta es una función exponencial, que crece muy rápidamente al aumentar el número de dígitos del mensaje. El logaritmo de esta expresión también crece, pero lo hace linealmente.

Función del número de permutaciones por dígito de mensajes y su logaritmo

En esta gráfica vemos las dos funciones que relacionan el número x de dígitos de un mensaje con el número de mensajes alternativos (2^{x}, en azul oscuro) y el logaritmo de dicho número (log  (2^{x}), en azul claro).

Así, si tenemos dos mensajes, uno de dos dígitos, y otro de cuatro, el número de alternativas del primero será 4, mientras que del segundo serán 16, pero su logaritmo será tan solo el doble. En otras palabras, el logaritmo del número de posibles mensajes es la suma de los logaritmos de sus dígitos, de manera que crece linealmente respecto al tamaño del mensaje. Este es uno de los principios que queríamos reflejar en nuestro modelo matemático.

Es este logaritmo lo que conocemos con el nombre de información. La información es el logaritmo de la inversa de la probabilidad de ocurrir un suceso. Ya estaríamos pues, en condiciones de apuntar la ecuación que expresa la noción de información de Shannon I de un mensaje X:

I(X) = log  (1/p(X))

O también:

I(X) = –  log  (p(X))

Bits de información

Habrá que crear una unidad de medida para este parámetro. Para mensajes en alfabeto binario, a esta unidad le damos en nombre de bit (también llamado shannon). Así, un mensaje de un solo dígito tiene log (1/\frac{1}{2}) = 1 bit de información. Para mensajes de cuatro dígitos sería log (1/\frac{1}{4}) = 4 bits.

Entropía de la información de Shannon

Descomponiendo la información

Por la propiedad que hemos mencionado antes, la información de un suceso compuesto es equivalente al sumatorio de las informaciones de sus eventos independientes. Para un mensaje X de 4 dígitos (x_{1}, x_{2}, x_{3}, x_{4}), la información también puede ser descrita cómo:

I(X) = log  (1/p(x_{1})) + log  (1/p(x_{2})) + log  (1/p(x_{3})) +log  (1/p(x_{4}))

Cada dígito puede ser igualmente descompuesto como un evento que toma una de dos alternativas posibles. Estas alternativas ya no son independientes. Si el símbolo no es 1, debe ser 0 y al revés, sumando ambos una probabilidad de uno. Esta interdependencia la expresamos multiplicando cada alternativa por su probabilidad de ocurrencia respecto al evento total. Si ambos símbolos tienen la misma posibilidad de ser elegidos, sería:

I(x_{i}) = \frac{1}{2} log  (1/\frac{1}{2}) + \frac{1}{2} log  (1/\frac{1}{2}) = 1 bit

Con esto ya podemos generalizar al caso en que las probabilidades no son las mismas para cada símbolo. Esto es interesante, pues nos permite modelar circunstancias más cercanas a una situación real. En el idioma castellano no es igualmente probable que aparezca la letra «e» a que lo haga la «x».

Además, esta probabilidad puede depender de circunstancias concretas. Por ejemplo, al mensaje «Se refugió bajo la lluvi» le falta una letra. Lo más inteligente sería suponer que fuera la letra «a». Si hubiera que adivinar la letra siguiente en el mensaje «Se refugió bajo la l», nuestra indecisión sería mucho mayor, o lo que es lo mismo, las alternativas tendrían probabilidades similares.

Entropía de la información

Este grado de indecisión se conoce en la Teoría de la Información de Shannon como entropía (H), que no es más que la suma ponderada de la información de eventos dependientes, como por ejemplo, un partido de fútbol, en el que uno de los dos equipos debe ganar, y la probabilidad de ambos suma 1.  Para un evento Q con n alternativas q_{i}, la entropía se define como:

H(Q) =  \displaystyle\sum_{i=1}^{n} p(q_{i})  log (1/p(q_{i}))

Volviendo al ejemplo del mensaje en numeración binaria, y suponiendo que exista tres veces más probabilidad de que aparezca un 0 que un 1, la fórmula sería:

H(Q) = \frac{1}{4} log  (1/\frac{1}{4}) + \frac{3}{4} log  (1/\frac{3}{4}) = 0.811 bits

Vemos que la cantidad de información de Shannon de este evento es menor que cuando las probabilidad de 0 y 1 era iguales. De hecho, siempre que ambos símbolos no sean equiprobables, la información resultante será menor que uno. Con esto conseguimos expresar lo que apuntamos arriba: mayor indecisión, es decir, alternativas igualmente probables, implican una mayor cantidad de información del evento en su totalidad. Cuando las probabilidades favorecen una de las alternativas, por ejemplo porque ya hemos descifrado gran parte de las letras de la palabra o porque se enfrenta un equipos de fútbol de desempeño muy descompensado, la predicción es más fácil y por tanto, la información del conjunto es menor.

Función de la entropía de la información respecto a la probabilidad de un suceso

La gráfica representa cómo varía la información de un evento de dos alternativas según cambia la probabilidad. Como se ve, el punto donde la información es máxima es aquel en el que las alternativas tienen una probabilidad de \frac{1}{2} cada una.

Lecturas recomendadas

 – Adami, C. (2016) What is information?

 – Singh, J. (1996) Teoría de la Información, del Lenguaje y la Cibernética.