Todo parece indicar que, los investigadores de Google han estado trabajando horas extras recientemente, publicando una avalancha de nuevos modelos e ideas. Lo más reciente, es una forma de tomar una imagen fija y convertirla en un avatar controlable, que surge de la parte posterior de un agente de Inteligencia Artificial (IA).VLOGGER no se encuentra actualmente disponible para probar, sin embargo, la demostración sugiere que le permitirá crear un avatar y controlarlo usando su voz, y parece sorprendentemente realista.
VLOGGER lo nuevo de Google
Vale la pena señalar que, ya puede hacer cosas similares hasta cierto punto con herramientas como la sincronización de labios de Pika Labs, así como los servicios de traducción de videos de Hey Gen y Synthesia, pero lo cierto es que, esta parece ser una opción mucho más simple y con menor ancho de banda.
¿Qué es VLOGGER?
Seguramente se estará preguntando ¿qué es exactamente VLOGGER? para responder a ello debemos señalar que actualmente, no es más que un proyecto de investigación con un par de videos de demostración divertidos, pero si en algún momento se convierte en un producto, podría ser una nueva manera de comunicarse en Teams o Slack.
Es un modelo de Inteligencia Artificial (IA) capaz de crear un avatar animado a partir de una imagen fija y mantener el aspecto fotorrealista de la persona en la foto en cada fotograma del video final. Luego, el modelo también toma un archivo de audio de la persona que habla y maneja el movimiento del cuerpo y los labios para reflejar la forma natural en que esa persona se movería si fuera ella quien dijera las palabras. Esto incluye crear movimientos de la cabeza, así como también expresiones faciales, miradas, parpadeos, e incluso, gestos con las manos y movimientos de la parte superior del cuerpo sin ninguna referencia más allá de la imagen y el audio.
¿Cómo funciona?
Para ser exactos, el modelo se basa en la arquitectura de difusión que impulsa la conversión de texto a imagen, video e incluso modelos 3D como MidJourney o Runway, pero añade mecanismos de control adicionales.
VLOGGER sigue varios pasos para obtener el avatar generado. Primero toma el audio y la imagen como entrada, los ejecuta mediante un proceso de generación de movimiento 3D, luego un modelo de “difusión temporal” para determinar los tiempos y el movimiento y finalmente, se amplía y se convierte en el resultado final.
Esencialmente, construye una red neuronal para predecir el movimiento de la cara, el cuerpo, la pose, así como la mirada y las expresiones a lo largo del tiempo usando la imagen fija como primer cuadro y el audio como guía.
Según se pudo conocer, entrenar el modelo demandó un gran conjunto de datos multimedia llamado MENTOR. Tiene 800.000 videos de diferentes personas hablando con cada parte de su cara y cuerpo etiquetada en cada momento.
¿Cuáles son los casos de uso de VLOGGER?
Según los investigadores de Google, uno de los principales casos de uso es la traducción de vídeos. Por ejemplo, tomar un vídeo existente en un idioma determinado y editar el labio y la cara para que coincidan con el nuevo audio traducido.
Ahora bien, otros posibles casos de uso incluyen la creación de avatares animados para asistentes virtuales, chatbots o personajes virtuales que se ven y se mueven de forma realista en un entorno de juego.
Es de resaltar que, un uso potencial es proporcionar comunicaciones por video de bajo ancho de banda. Una versión futura del modelo podría llegar a permitir chats de video a partir de audio animando el avatar de la imagen fija.
Esto podría resultar especialmente útil para entornos de realidad virtual en auriculares como Meta Quest o Apple Vision Pro, que funcionan independientemente de los modelos de avatar propios de la plataforma.