Como lo informamos desde TECHcetera, la reciente revelación de OpenAI de su impresionante modelo generativo Sora superó los límites de lo que es posible con la conversión de texto a video. Ahora Google DeepMind nos trae juegos de texto a video. El nuevo modelo, denominado “Genie”, tiene la capacidad de poder tomar una breve descripción, un boceto dibujado a mano o incluso, una foto y convertirlo en un videojuego jugable al estilo de los clásicos juegos de plataformas 2D como Super Mario Bros. Sin embargo, no espere nada rápido. Los juegos se ejecutan a un fotograma por segundo, frente a los típicos 30 a 60 fotogramas por segundo de la mayoría de los juegos modernos. ¡Todos los detalles sobre Genie los traemos a continuación!
Los mejores datos sobre Genie de Google DeepMind
Genie recibió entrenamiento con 30.000 horas de video de cientos de juegos de plataformas en 2D tomados de Internet. Otros ya han adoptado ese enfoque antes, señala Guzdial. Su propio generador de juegos aprendió de videos a crear juegos de plataformas abstractos. Por su parte, Nvidia usó datos de vídeo para entrenar un modelo denominado GameGAN, que podría producir clones de juegos como Pac-Man.
Pero, si hay algo importante que señalar es que todos estos ejemplos entrenaron el modelo con acciones de entrada (como presionar botones en un controlador), así como secuencias de video; un cuadro de video que muestra a Mario saltando se emparejó con la acción de Salto, y así sucesivamente. Etiquetar secuencias de vídeo con acciones de entrada demanda mucho trabajo, lo que ha limitado la cantidad de datos de entrenamiento disponibles.
Por el contrario, es de resaltar que, Genie fue entrenado únicamente con imágenes de video. Luego aprendió cuál de las 8 posibles acciones haría que el personaje del juego en un video cambiara de posición. Esto convirtió numerosas horas de vídeos online existentes en posibles datos de entrenamiento.
El nuevo modelo Genie de Google DeepMind, genera cada nuevo cuadro del juego sobre la marcha dependiendo de la acción que efectúa el jugador. Presione Saltar y Genie actualiza la imagen actual para mostrar al personaje del juego saltando: Presione Izquierda y la imagen cambiará para mostrar el personaje movido hacia la izquierda. El juego avanza acción tras acción, cada nuevo cuadro se genera desde cero conforme el jugador juega.
Según se pudo conocer, las versiones futuras de Genie podrían ejecutarse más rápido!
Ahora bien, Genie aprendió algunas peculiaridades visuales comunes que se encuentran en los juegos de plataformas. Muchos juegos de este tipo usan paralaje, donde el primer plano se mueve hacia los lados más rápido que el fondo. Genie suele agregar este efecto a los juegos que genera.
Aunque Genie es un proyecto de investigación interno y no se publicará, Guzdial señala que el equipo de Google DeepMind dice que algún día podría convertirse en una herramienta de creación de juegos, algo en lo que él también está trabajando.
Parques infantiles virtuales
Pero los investigadores de Google DeepMind están interesados en algo más que la generación de juegos. El equipo detrás de Genie trabaja en el aprendizaje abierto, donde los robots controlados por Inteligencia Artificial se colocan en un entorno virtual y se les deja resolver diversas tareas mediante prueba y error (una técnica conocida como aprendizaje por refuerzo).
En el año de 2021, un equipo diferente de DeepMind desarrolló un patio de juegos virtual denominado XLand, en el que los robots aprendieron a cooperar en tareas simples como mover obstáculos. Los entornos sandbox como XLand serán cruciales para entrenar futuros robots en una variedad de desafíos diferentes antes de enfrentarlos a escenarios del mundo real. Los ejemplos de videojuegos demuestran que Genie podría usarse para generar este tipo de parques virtuales.
Otros han desarrollado herramientas similares para construir mundos. Por ejemplo, David Ha de Google Brain y así mismo, Jürgen Schmidhuber del laboratorio de Inteligencia Artificial IDSIA en Suiza, desarrollaron una herramienta en el año de 2018 que entrenaba robots en entornos virtuales basados en juegos llamados modelos mundiales. Sin embargo nuevamente, a diferencia de Genie, estos solicitaban que los datos de entrenamiento incluyeran acciones de entrada.
El equipo logró demostrar cómo esta capacidad también es útil en robótica. Cuando a Genie se le mostraron videos de brazos robóticos reales manipulando una variedad de objetos domésticos, el modelo aprendió qué acciones podía llevar a cabo ese brazo y cómo controlarlo. Los robots del futuro podrían aprender nuevas tareas observando tutoriales en vídeo.