Creación de un conjunto de datos de perros sintéticos en GTA-V para modelos 3D

Un equipo de investigadores de la Universidad de Surrey ha desarrollado un método revolucionario para convertir fotografías de perros en modelos 3D detallados.

Transformando fotografías de perros en modelos 3D

Los investigadores intentaron entrenar un sistema de inteligencia artificial para interpretar y convertir imágenes 2D de perros en sus poses 3D.

¿El material de formación? No perros reales, sino imágenes generadas por computadora del mundo virtual de GTA V.

Entrenamiento de modelos con perros CGI

Moira Shooter, una estudiante de investigación de posgrado involucrada en el estudio, compartió: “Nuestro modelo fue entrenado en perros en CGI, pero pudimos usarlo para crear modelos esqueléticos en 3D a partir de fotografías de perros y animales reales. Esto podría permitir a los biólogos detectar vida silvestre herida o ayudar a los artistas a crear animales más realistas en el metaverso”.

Los métodos tradicionales para enseñar a la IA sobre estructuras 3D implican el uso de fotografías reales junto con datos sobre las posiciones 3D reales de los objetos, a menudo obtenidos mediante tecnología de captura de movimiento.

Creación de una base de datos de movimientos virtuales de perros.

Sin embargo, cuando se trata de aplicar estas técnicas a los perros, simplemente hay demasiados movimientos que realizar.

Para construir su conjunto de datos sobre perros, los investigadores modificaron el código de GTA V para reemplazar sus personajes humanos con avatares de perros mediante un proceso conocido como «modding».

Esto les permitió producir 118 vídeos que capturaban a estos perros virtuales realizando diferentes acciones (sentarse, caminar, ladrar y correr) en diferentes condiciones ambientales.

Usando el modelo de IA DINOv2 de Meta

Los siguientes pasos utilizaron el modelo de IA DINOv2 de Meta por sus fuertes habilidades de generalización, refinándolo con DigiDogs para predecir con precisión poses 3D a partir de imágenes RGB de vista única.

Los investigadores demostraron que el uso del conjunto de datos de DigiDogs para el entrenamiento dio como resultado poses de perros en 3D más precisas y realistas que los entrenados con conjuntos de datos del mundo real, gracias a la variedad de apariencias y acciones de los perros capturadas.

Resultados y posibles aplicaciones

Los modelos entrenados con el conjunto de datos sintéticos DigiDogs mostraron una precisión mejorada en comparación con los entrenados únicamente con el conjunto de datos RGBD-Dogs del mundo real.

Los resultados superaron los métodos existentes al proporcionar resultados 3D detallados y establecer un nuevo punto de referencia en términos de realismo y precisión para la estimación de la postura del perro en 3D a partir de imágenes 2D, confirmado por evaluaciones cualitativas y cuantitativas en profundidad.

Si bien este estudio representó un gran paso adelante en el modelado animal en 3D, el equipo reconoce que todavía queda trabajo por hacer, particularmente para mejorar la forma en que el modelo predice el aspecto de profundidad de las imágenes (la coordenada z).

Shooter describió el impacto potencial de su trabajo diciendo: “Las poses en 3D contienen mucha más información que las fotografías en 2D. Desde la ecología hasta la animación, esta solución inteligente tiene muchos usos posibles”.

El artículo ganó el premio al Mejor Artículo en la Conferencia de Invierno IEEE/CVF sobre Aplicaciones de Visión por Computadora, pero también promete muchas aplicaciones, desde la conservación de la vida silvestre hasta la representación de objetos digitales 3D en aplicaciones de realidad virtual.

Fuente: dailyai.com