Google Research: Enseñando IA a leer mapas
Noticia

Google Research: Enseñando IA a leer mapas

19 de febrero de 20261 min de lectura

Google Research propone un sistema para generar datos sintéticos que entrena a modelos de IA multimodal (MLLMs) a seguir rutas visuales en cualquier mapa, enseñándoles razonamiento espacial preciso.

Los humanos procesamos mapas en segundos, distinguiendo pasillos de paredes. Sin embargo, las MLLMs fallan al trazar rutas válidas, como atravesar recintos en un zoo, por falta de comprensión geométrica y topológica.

El reto: Falta de anclaje en el mundo físico

Las MLLMs asocian «camino» con imágenes, pero ignoran reglas de navegación como conectividad o evitar muros. Recopilar datos reales anotados es inviable por su escala y propiedad de mapas complejos.

La solución: Pipeline escalable de datos sintéticos

Se genera en cuatro etapas automáticas con modelos Gemini:

1. Generación de mapas diversos

Un LLM crea prompts descriptivos (zoos, centros comerciales) convertidos en imágenes por un modelo texto-imagen.

2. Identificación de caminos transitables con un «Mask Critic»

Se agrupan píxeles por color; un MLLM valida máscaras como redes conectadas realistas.

3. Construcción de grafo navegable

Se transforma la máscara 2D en grafo con nodos en intersecciones y aristas en caminos.

4. Generación de rutas perfectas con un «Path Critic»

Dijkstra calcula rutas óptimas; un MLLM verifica lógica y validez.

Se crea un dataset de 2M pares, open-source con Gemini 2.5 Pro e Imagen-4.

Resultados

Fine-tuning en 23.000 rutas mejora NDTW (Gemini 2.5 Flash: 1,29 a 0,87) y tasa de éxito en MapBench.

Para empresas en logística o robótica, esta técnica ofrece una solución: genera datos sintéticos para entrenar IA en navegación indoor, optimizando rutas en almacenes o hospitales sin datos reales costosos.

Fuente: Research Google

Compartir esta noticia