NeoFronteras

Reconstrucciones 3D a partir de simples fotos

Área: Tecnología — jueves, 31 de enero de 2008

Un software especial desarrollado en la Universidad de Stanford permite reconstruir la tercera dimensión a partir de fotografía corrientes de dos dimensiones. Los interesados pueden enviar sus fotos y así obtener una versión tridimensional de las mismas.

Uno de las fotos de partida utilizadas por el programa. Foto: Ashutosh Saxena.

Los expertos en arte o los artistas pueden discutir acerca de la escala, perspectiva o profundidad de un cuadro o una foto, pero una vez terminada la obra sólo sera una imagen bidimensional con un punto de vista fijo.
Gracias al programa Make3D, y al algoritmo que le hace funcionar, es posible tomar cualquier imagen bidimensional y recrear un vuelo 3D sobre el motivo que contenga, dando al observador la impresión de que contempla la escena con profundidad de campo desde distintos puntos de vista. Lo visualizado sigue siendo 2D, pero se puede cambiar el punto de vista de manera interactiva.
Ashutosh Saxena, estudiante de doctorado en la Universidad de Stanford, ha trabajado junto a Andrew Ng, profesor en la misma universidad, en el desarrollo del programa.
Saxena dice que el algoritmo usa varias indicaciones visuales que el observador emplea para estimar aspectos tridimensionales de la escena. Así por ejemplo, si miramos un prado verde podemos ver que su textura cambia según se hace más distante.
La capacidad de extraer un modelo 3D a partir de una foto 2D podría aplicarse a una variedad de situaciones, desde la venta inmobiliaria online, la recreación de ambientes en juegos de ordenador o la mejora de la visión y destreza de robots móviles que navegan por el mundo real.
La extracción de información 3D de imágenes corrientes es todavía una tecnología emergente. Hasta hace poco los escasos programas que había reconstruían malos modelos 3D. Make3d recrea modelos precisos y suaves con el doble éxito de sus competidores gracias al abandono de las asunciones previas en favor de un análisis más profundo de cada imagen y del uso de la técnica de inteligencia artificial de programas basados en el autoaprendizaje.
Para enseñar al algoritmo la profundidad, orientación y posición de las imágenes 2D los investigadores alimentan el programa con imágenes estáticas que contienen escenas del campus universitario junto con datos 3D de las mismas escenas tomados con escáner láser.
El algoritmo correlaciona entonces los dos conjuntos de datos y se hace una idea de las tendencias y patrones asociados con estar cerca o lejos y otras cualidades. Así por ejemplo, aprende acerca que los cambios abruptos a lo largo de los bordes se correlacionan bien con un objeto que está delante de otro y que los objetos lejanos se ven más brumosos y azulados que los objetos cercanos.
Para hacer estos juicios de valor el algoritmo divide la imagen en pequeños planos denominados «superpíxeles», que son trozos de la imagen con similar color, brillo y otros atributos. Mediante el análisis de estos superpíxeles y sus vecinos, el algoritmo estudia cambios en cualidades como la gradación de la textura y hace valoraciones sobre lo lejos que está un motivo del observador y su orientación en el espacio. A diferencia de otros algoritmos previos, éste de Stanford puede tener en cuenta planos en cualquier ángulo, y no sólo verticales y horizontales. Esto le permite recrear modelos para escenas que tienen planos en muchas orientaciones diferentes como las ramas curvadas de un árbol o la ladera de una montaña.
El artículo con la descripción de este algoritmo ganó el primer premio en el congreso internacional de reconocimiento y reconstrucción 3D celebrado el pasado octubre en Río de Janeiro.
En la web del Make3d se encolan las imágenes enviadas por los usuarios y el algoritmo hace una reconstrucción de un modelo 3D que envía al usuario por email. Además el usuario vota si el resultado es bueno y puede ver una reconstrucción alternativa, e incluso interaccionar con el sistema para indicar lo que no se ha reconstruido bien. Las fotos se pueden colocar directamente en el sitio web o a través de Flickr (pero el grupo make3d en Flickr está de momento vacío).
Aunque esta tecnología funciona mucho mejor que cualquier otra similar, obviamente no es perfecta. El software recrea muy bien los paisajes y escenas grandes, pero no los primeros planos de objetos. Esperan arreglar este problema con la introducción en el sistema del reconocimiento de formas. La idea es que si el programa reconoce la figura de una persona puede evaluar mejor distancias basándose en el tamaño de la persona en la foto.
No hay sustituto para la escena real, pero dar a las fotos corrientes aspecto 3D es muy interesante y visual.
Para poder visualizar el resultado, y ya que casi ninguno tenemos monitores 3d, hay que instalar un software especial (un cliente VRML). Algunos de estos visualizadores se instalan como un plugin en el navegador y nos pueden servir para ver todo tipo de reconstrucciones 3D y no sólo de las que aquí hablamos.
Al principio se ve la foto original y luego con el puntero del ratón nos movemos por la escena cambiando el punto de vista, de ese modo se consigue la sensación de profundidad. Es similar en ese aspecto a un videojuego.
También se puede montar un vídeo con la navegación por la escena. Hay alguno ya colgado en YouTube.
En NeoFronteras lo hemos probado y la verdad es que es impresionante si tenemos en cuenta de la información de la que se parte: una simple foto.
Aunque la posibilidad de que la web de Make3D esté colapsada o en mantenimiento durante estos días es bastante alta.

Fuentes y referencias:
Web de Make3D.
Nota de prensa en Stanford University.
Vídeo en YouTube.
Galería.
Cortona VRML Client.
Ejemplo de modelo 3D infográfico no obtenido por este método.

Versión para imprimir

Salvo que se exprese lo contrario esta obra está bajo una licencia Creative Commons.

Compartir »

1 Comentario

Davidmh:
jueves 31 enero, 2008 @ 8:56 pm
La página está en periodo de mantenimiento, pero resurgirá a finales de febrero, si todo va bien.

Aquí se puede descargar el código. ¿Alguien sabe cómo se puede compilar?