Al parecer, Alibaba quiere que compares su nuevo generador de vídeo con Inteligencia Artificial (IA) con Sora de OpenAI. De lo contrario, ¿por qué usarlo para hacer que la creación más famosa de Sora cante una canción de Dua Lipa? El pasado martes, una organización denominada “Instituto para la Computación Inteligente” dentro del gigante chino del comercio electrónico Alibaba, publicó un documento sobre un nuevo e intrigante generador de video de IA que ha desarrollado y que es sorprendentemente bueno para convertir imágenes fijas de rostros en actores pasables y cantantes carismáticos.El sistema se llama EMO, un divertido y entretenido backronym aparentemente extraído de las palabras “Emotive Portrait Alive”. ¡Todos los detalles de lo nuevo que trae Alibaba a continuación!
Alibaba trae “EMO”
EMO viene siendo un vistazo a un futuro donde un sistema como Sora de OpenAI crea mundos de video, y en vez de estar poblados por personas mudas y atractivas que simplemente se miran entre sí, los “actores” en estas creaciones de Inteligencia Artificial dicen cosas, o incluso cantan.
Alibaba colocó vídeos de demostración en GitHub para mostrar su nuevo marco de generación de vídeos. Estos incluyen un video de la dama Sora popular por caminar por Tokio generado por IA justo después de una tormenta, cantando “Don’t Start Now” de Dua Lipa y poniéndose bastante divertida con ella.
Las demostraciones también consiguen revelar cómo EMO tiene la capacidad de poder, por citar un ejemplo, hacer que Audrey Hepburn hable el audio de un clip viral de Lili Reinhart de Riverdale hablando de lo mucho que le encanta llorar. En ese clip, la cabeza de Hepburn mantiene una posición erguida bastante parecida a la de un soldado, pero todo su rostro, no solo su boca, realmente parece emocionar las palabras en el audio.
Cabe resaltar que, en contraste con esta extraña versión de Hepburn, Reinhart en el clip original mueve mucho la cabeza y también expresa emociones de forma bastante diferente, por lo que EMO no parece ser un riff del tipo de intercambio de caras de Inteligencia Artificial que se volvió viral en el pasado a mediados de la década de 2010 y provocó el aumento de los deepfakes en 2017.
En los últimos años han surgido aplicaciones diseñadas para generar animaciones faciales a partir de audio, sin embargo, no han sido tan inspiradoras. Por ejemplo, el paquete de software NVIDIA Omniverse promociona una aplicación con un marco de animación de audio a cara denominado “Audio2Face”, que se basa en animación 3D para sus resultados en vez de sencillamente generar videos fotorrealistas como EMO.
A pesar de que Audio2Face solo tiene 2 años, la demostración de EMO lo hace parecer una antigüedad. En un vídeo que pretende mostrar su capacidad para imitar emociones mientras habla, la cara en 3D que representa se parece más a una marioneta con una máscara de expresión facial, mientras que los personajes de EMO parecen expresar los matices de emociones complejas que aparecen en cada clip de audio.
Se evalúa en base a una demostración suministrada por sus creadores
Es de resaltar que, al igual que con Sora, se está evaluando este marco de Inteligencia Artificial en base a una demostración suministrada por sus creadores, y en realidad no tenemos en nuestras manos una versión utilizable que podamos probar.
Por tal motivo, es dificultoso imaginar que desde el principio este software tenga la capacidad de poder producir actuaciones faciales tan convincentemente humanas basadas en audio sin pruebas y errores significativos, ni ajustes finos concretos de tareas.
La mayoría de los personajes de las demostraciones no expresan un discurso que exija emociones extremas (caras contraídas por la ira o incluso, derritiéndose en lágrimas, por ejemplo), por lo que queda por ver cómo EMO manejaría las emociones fuertes con el audio solo como guía. Es más, a pesar de estar hecho en China, se lo describe como un políglota total, capaz de captar la fonética del inglés y el coreano, y hacer que las caras formen los fonemas adecuados con una fidelidad decente, aunque lejos de ser perfecta.
Para ser más precisos, en otras palabras, sería bueno ver qué pasaría si pusiéramos el audio de una persona muy enojada hablando un idioma menos conocido en EMO para poder observar qué tan bien funciona. Igualmente son fascinantes los pequeños adornos entre frases (labios fruncidos o una mirada hacia abajo) que insertan emoción en las pausas en vez de solo en los momentos en que los labios se mueven.
Estos son ejemplos de cómo un rostro humano real expresa emociones, y es realmente tentador observar que EMO lo haga tan bien, incluso en una demostración tan limitada.
Emo se basa en un gran conjunto de datos de audio y video
Según el artículo, el novedoso modelo de EMO se basa en un gran conjunto de datos de audio y vídeo para proporcionarle los puntos de referencia necesarios para emocionar de forma tan realista.
se conoce, el modelo de EMO combina un mecanismo de atención de referencia y un mecanismo de atención de audio separado para brindar personajes animados cuyas animaciones faciales coincidan con lo que aparece en el audio sin dejar de ser fieles a las características faciales de la imagen base suministrada.
Sin lugar a dudas, viene siendo una colección sorprendente de demostraciones y, después de verlas, es imposible no imaginar lo que vendrá a continuación. Pero, como todo tiene un pero… si gana dinero como actor, trate de no imaginar demasiado, porque las cosas se vuelven bastante inquietantes con bastante rapidez.