FECHA

7 de octubre de 2025

CATEGORÍA

TAGS

Geolocalización visual

Rubén Rodríguez Abril

La geolocalización visual combina visión por ordenador y aprendizaje profundo para inferir la posición de una imagen sin depender del GPS. Este artículo recorre la evolución de los modelos más influyentes —de las CNNs y NetVLAD a los transformers de TransGeo— y analiza los principales conjuntos de datos (CVUSA, CVACT, VIGOR). Más allá de su utilidad en vehículos autónomos o drones, estas arquitecturas revelan cómo la IA comienza a construir una comprensión espacial del mundo: una auténtica percepción multimodal de la Tierra.

Introducción

La geolocalización visual es una técnica de inteligencia artificial que, mediante modelos de deep learning, tiene como objetivo asignar coordenadas de latitud, longitud (y opcionalmente altitud) a una imagen determinada.

En la actualidad, sus aplicaciones son diversas y se extienden a múltiples ámbitos: es fundamental en OSINT, donde se utiliza para el reconocimiento de imágenes en escenarios de guerra y su uso es prometedor en campos como los coches autónomos o navegación de aeronaves no tripuladas (UAVs). En estos dos últimos casos, la geolocalización visual se investiga activamente como potencial complemento a los sistemas GNSS de navegación por satélite: para reducir errores de posicionamiento a pequeña escala o servir de respaldo en el caso de interrupciones o fallos en las señales de GPS, Galileo o BeiDou.

Tipos de geolocalización visual

Por la perspectiva en que se toman las imágenes, la geolocalización puede clasificarse en dos tipos principales:

Geolocalización cenital. Las imágenes a las que hay que asignar coordenadas han sido tomadas desde una perspectiva aérea o satelital.

Geolocalización cruzada. Las capturas provienen de cámaras situadas a nivel de suelo, y con un enfoque oblicuo u horizontal, que ofrecen una perspectiva egocéntrica.

Figura 1. Vista aérea y vista de calle a 360º de una misma localización en la ciudad de Seattle, tomadas de la base de datos VIGOR. Fuente: Cross-view geo-localization: a survey.

Estimación visual de localización

Los mecanismos de identificación visual global (global-wise geolocalization) son un tipo de geolocalización visual orientada a estimar la región del mundo en la que fue tomada una foto. A diferencia de otros métodos que buscan una precisión métrica, su objetivo principal es realizar una clasificación geográfica a gran escala (p.e. sur de Patagonia, centro del desierto de Gobi, etc..). El resultado en coordenadas GPS no ofrece una localización exacta sino una estimación regional aproximada.

GeoCLIP, presentado en 2023, aborda esta tarea integrando a los embeddings de imágenes y coordenadas GPS en un mismo espacio común de representaciones.

Figura 2. A la izquierda se describe la dinámica de las consultas: El modelo recibe como entrada una imagen y proporciona como salida sus coordenadas estimadas en GPS. A la derecha se representa la estructura del modelo: dos codificadores, de localización y de imagen, proyectan las fotografías y sus localizaciones en GPS en un espacio común de rerpesentaciones. Fuente: GeoCLIP.

La arquitectura de GeoCLIP se compone de dos codificadores que actúan paralelamente:

-Codificador de imagen: Consiste en un transformer visual preentrenado que transforma las imágenes en embeddings. Tras su preentrenamiento, sus pesos permanecen congelados.

Codificador de localización: Transforma cada par de coordenadas de latitud y longitud en ternas de centenares de parámetros (RFFs, random fourier features), que a su vez son transformados en embeddings de localización.

Como su propio nombre sugiere, el modelo está inspirado en CLIP: Los embeddings de imágenes y localizaciones residen en el mismo espacio de representaciones. La pérdida es de carácter contrastivo y tiende a alinear los pares positivos imagen-localización y a alejar los negativos. Modelando a la Tierra como una función continua, GeoCLIP es capaz de asignar un embedding a cualquier localización de GPS, aunque no tenga ninguna imagen asignada en la base de datos.

Figura 3. Una vez entrenado GeoCLIP, los investigadores agregaron a su espacio de representaciones los vectores de texto de CLIP. Tras realizar la consulta de “desierto”, las geolocalizaciones permitieron construir un mapa de intensidad con las regiones del mundo más probable. Fuente: GeoCLIP.

Aunque las capacidades de GeoCLIP son notables, el modelo presenta el inconveniente de que puede confundir paisajes con patrones geométricos y cromáticos parecidos, pero ubicados a miles de kilómetros de distancia, como Wadi Rum, en Jordania y los alrededores de Monument Valley, en Utah.

Geolocalización cruzada (cross-view localization)

Los primeros modelos de geolocalización basados en aprendizaje profundo solían apoyarse en redes convolucionales puras (CNNs), que sin embargo no llegaron a cuajar debido a varios inconvenientes fundamentales:

-la diferencia de dominios, ya que los patrones visuales a nivel de suelo difieren notablemente de los que observados por satélite.

-la falta de capacidad de generalización cuando se trataba de estructuras geométricas globales.

-la dificultad para modelar relaciones multimodales complejas, como asociar una hilera de árboles en vista terrestre con una línea verde de una imagen satelital.

A partir de 2017 se exploró el uso de GANs (Redes Generativas Adversarias) para “traducir” imágenes a pie de calle a vistas en coordenadas polares. Aunque muchas de sus transformaciones eran plausibles (por ejemplo, calles circulares eran convertidas en un patrón radial, cuando eran vistas desde el cielo), su rendimiento era bastante irregular, mostrando una mayor eficiencia en unas arquitecturas urbanas que en otras.

En este artículo presentaremos dos de los modelos que han obtenido mayor reconocimiento hasta la fecha:

-CVM-Net, en el que la CNN es complementada con una módulo (NetVLAD) que crea un vector global a partir de la información local (descriptores).

-TransGEO, basado en transformers, y que también captura relaciones globales.

CVM-Net

CVM-Net se compone de dos codificadores paralelos: uno para imágenes a pie de calle y otro para imagenes satelitales. Cada codificador a su vez se estructura en una red convolucional complementada por una segunda sección, NetVLAD, que procesa información global.

La salida de la última capa convolucional es un tensor de tres dimensiones (ancho, alto, canal), interpretado como un conjunto de vectores denominados descriptores locales. Cada descriptor se obtiene tomando todos los valores de los canales para un única coordenada espacial (píxel).

Dado que estos descriptores tienen una información fuertemente localizada, la información de todos ellos debe ser combinado para formar un descriptor global, que integre el contexto completo de la imagen. NetVLAD logra esto agrupando los descriptores locales en clústeres. Cada clúster se articula en torno a un centroide que representa uno o varios conceptos visuales aprendidos durante el entrenamiento.

Figura 4. Esquema de uno de los modelos de CVM-Net. Se representan dos codificadores que procesan las imágenes de satélite y a pie de suelo. La primera sección de cada codificador está formada por capas convolucionales. La segunda, por NetVLAD, que genera un descriptor global con la información relativa al contexto de toda la imagen. Sobre ella se aplica la función de pérdida.

La salida de cada codificador un vector de k·d dimensiones denominado descriptor global, donde k es el número de descriptores locales y d el de dimensiones de cada uno de ellos (igual al número de canales de la última capa convolucional, como veíamos). Este descriptor global es relativamente robusto frente a alteraciones de iluminación, de clima, así como a oclusiones; es compacto y altamente discriminativo (contiene la información suficiente para distinguir entre diferentes localizaciones).

En uno de los dos modelos ensayados por los investigadores (CVM-Net II), dos de las capas de NetVLAD de ambos codificadores comparten pesos sinápticos (una configuración conocida como red siamesa).

La función de pérdida es de tipo triplete (triplet loss). Se basa en tríadas compuestas por una imagen de calle como ancla (anchor), su correspondiente imagen de satélite como ejemplo positivo, y una imagen de satélite de una ubicación diferente como ejemplo negativo. A partir de aquí, debe maximizarse la distancia (en el espacio común de embeddings) de la pareja negativa y minimizarse la positiva. Matemáticamente se expresa mediante la siguiente ecuación:

\mathcal{L}_{\text{soft}} = \log\left( 1 + e^{(m + d_{\text{pos}} – d_{\text{neg}})} \right)
TransGEO

La arquitectura Transformer, introducida en 2017 con el artículo «Attention Is All You Need», no solo revolucionó el Procesamiento del Lenguaje Natural (NLP), sino que también permitió mejorar muchos algoritmos de visión artificial. Su mecanismo de autoatención permite modelar dependencias globales dentro de una imagen, capturando relaciones entre partes distantes que las Redes Neuronales Convolucionales (CNN), con su enfoque en características locales mediante filtros, sólo son capaces de detectar en sus últimas capas. Además, los embeddings visuales (de píxeles o de parches) contienen información posicional que también puede ser procesada por las primeras capas.

Estas capacidades han encontrado aplicación directa en la geolocalización cruzada. Un ejemplo paradigmático es el modelo TransGeo, presentado en la conferencia CVPR 2022, y que fue el primer mecanismo basado íntegramente en transformers dentro de este campo, sin recurrir a capas convolucionales, aumento de datos o transformación en coordenadas polares. Los autores de TransGeo aprovecharon el funcionamiento interno de los transformers para implementar una estrategia de «atender y hacer zoom»: el mecanismo de atención identifica y descarta los parches (fragmentos) de la imagen menos informativos, reduciendo así el coste computacional.

Figura 5. Esquema del funcionamiento de TransGEO. Existen dos codificadores paralelos para imágenes aéreas e imágenes a pie de calle. En cada uno de ellos, el token de clase (similar a [CLS] en BERT) es extraído de cada uno de ellos y se hace pasar a través de un perceptrón multiclase para producir un embedding. El “pipeline” se divide en dos etapas. En la primera, los embeddings aéreos y a nivel de calle se comparan por la función de pérdida. En la segunda, se recorta la imagen aérea y se vuelve a procesar por su respectivo codificador. Fuente: TransGEO.

Las imágenes aéreas y a nivel de calle son procesadas por sendos transformers visuales dotados de la siguientes características particulares:

División en parches. Las imágenes se dividen en parches que son codificados mediante embeddings de contenido y de posición. La codificación de posición permite eliminar parches no relevantes, sin que ello afecte a la información posicional del resto de los parches.

Token de clase. Al igual que en el modelo BERT, a la ventana de contexto se agrega un token de clase [CLS], que codificará la información más relevante de la imagen. La última capa del codificador transforma este token en un embedding de imagen (aérea o terrestre).

Entrenamiento inicial. Durante la primera fase de entrenamiento, se aplica una función de pérdida en tripletes, como la ya descrita con anterioridad, que compara los embeddings de parejas positivas (similares) y negativas (no similares).

Recorte de la imagen. Adicionalmente, se forma un mapa a partir de los coeficientes de atención del token de clase con los parches de la imagen en la última capa del codificador de imágenes aéreas. Aquellos parches que reciban menos puntuaciones son eliminados, lo que permite que el modelo se enfoque en las imágenes más informativas.

Figura 6. El mecanismo de atención vincula al token [CLS] con aquellas partes de las imágenes (en colores) que mayor cantidad de información portan para realizar la tarea de geolocalización. Fuente: Cross-view geo-localization: a survey.

Bases de datos

Entre las bases de datos más utilizadas para la geolocalización cruzada, podemos señalar los siguientes:

Datasets con imágenes exclusivamente a nivel de calle (street view), usados para preentrenar el codificador terrestre. Las más comunes son Pittsburgh250k, que como su propio nombre indica contiene 250.000 imágenes en diferentes localizaciones de esta ciudad de Pensilvania y Google Street View Dataset, con 62.058 imágenes de alta resolución que cubren distritos centrales y áreas periféricas en Pittsburgh, Orlando y sectores de Manhattan. Todas las imágenes están anotadas con ubicaciones GPS precisas y orientaciones de brújula.

CVUSA (Cross-view USA), compuesta aproximadamente por un millón imágenes aéreas y a nivel de calle procedentes de toda la geografía estadounidense. No hay datos de GPS.

CVACT, centrado en la ciudad de Canberra, y compuesto de imágenes de Google Street (de calle) y Google Maps (aéreas) debidamente emparejadas, y con coordenadas de GPS.

VIGOR, integrada por 238696 panoramas y 90618 imágenes aéreas de cuatro ciudades de EEUU (Manhattan, Chicago, San Francisco y Seattle), debidamente georreferenciadas con GPS. El punto a identificar no necesariamente está en el centro de la imagen.

Aunque las bases de datos citados contienen una rica colección de imágenes, su rendimiento y robustez son desiguales cuando hay variaciones de luz y sombra, cambios de luminosidad y nubosidad, condiciones meteorológicas adversas como lluvia y nieve (casi inexistentes en Pittsburgh250k, por ejemplo), capturas nocturnas o crepusculares, o diferencias estacionales.

Por ello, en la actualidad, se están popularizando bases de datos con cobertura climática y temporal más amplia, como Tokyo 24/7, Nordland (recorrido de un tren noruego en 4 estaciones), RobotCar Oxford (con capturas en diferentes condiciones climatológicas.

Problemas y perspectivas de futuro

La geolocalización cruzada mediante deep learning se ha consolidado como una tecnología fundamental para dotar de resiliencia a los sistemas de navegación de vehículos autónomos y drones, al ofrecer un método de posicionamiento robusto en escenarios donde las señales GNSS (como el GPS) se degradan o están indisponibles, ya sea en «cañones urbanos», túneles u otros entornos adversos.

Aunque la introducción de arquitecturas innovadoras, como los transformers y las convoluciones deformables, ha supuesto un avance significativo, el campo aún se enfrenta a retos críticos que condicionan su despliegue a gran escala:

1. Demanda computacional. Los modelos de vanguardia requiere una elevada capacidad de procesamiento (en términos de GFLOPs y parámetros), lo que dificulta su ejecución en tiempo real en sistemas con restricciones de potencia y latencia.

2. Actualización cartográfica dinámica. Los sistemas dependen de bases de datos visuales de referencia. Mantenerlas actualizadas frente a cambios continuos en el entorno urbano y natural (nuevas construcciones, cambios en el planeamiento urbano, etc…) es un problema logístico de primer orden.

3. Robustez ambiental. La precisión del modelo debe ser invariante ante las condiciones climáticas (lluvia, nieve, niebla) y de iluminación (día, noche, sombras), que alteran drásticamente la apariencia visual tanto a nivel de calle como desde el aire.

4. Invariancia escalar y geométrica. Los algoritmos deben ser capaces de emparejar imágenes con grandes diferencias de escala, perspectiva y resolución (vista de satélite frente a una vista aérea baja), y ser robustos ante transformaciones traslacionales y rotacionales de la cámara terrestre.

Sin lugar a dudas, la superación de estos desafíos sitúa a la geolocalización cruzada como una de las áreas de investigación más dinámicas y prometedoras en la intersección entre la visión por ordenador y la robótica autónoma. Su desarrollo será un catalizador clave para la próxima generación de sistemas de movilidad inteligente.

SERIES

Sistemas multimodales

CLIP