¡Google trae VideoPoet! Por si no lo sabía, el último modelo VideoPoet de Google puede convertir indicaciones basadas en texto en videos generados por Inteligencia Artificial (IA). Pero ¡no se preocupe que aquí en TECHcetera le traemos todos los detalles sobre este nuevo modelo!
Esto es todo lo que debe conocer sobre VideoPoet
Vale la pena señalar que con VideoPoet, Google se ha convertido en el primer gigante tecnológico en anunciar una Inteligencia Artificial capaz de generar vídeos. Y a diferencia de intentos anteriores, Google señala que también puede generar escenas con mucho movimiento en lugar de sólo movimientos sutiles.
Pero, ¿qué es Google VideoPoet con exactitud? Hay que señalar que el mismo, es un modelo experimental de lenguaje grande que tiene la capacidad de poder generar videos a partir de un mensaje basado en texto. Puede describir una escena ficticia y tener un vídeo listo para verlo en cuestión de segundos. Si alguna vez ha usado un generador de imágenes con IA como por ejemplo; Midjourney o DALL-E 3, entonces, ya sabe qué esperar de VideoPoet.
Del mismo modo, al igual que los generadores de imágenes con Inteligencia Artificial, VideoPoet también puede realizar ediciones en contenido de vídeo existente. Por ejemplo, podría recortar una parte del fotograma del vídeo y pedirle a la IA que rellene el espacio con algo de su imaginación.
¿Cómo funciona este nuevo modelo de Google?
Investigadores de Google explicaron que VideoPoet se diferencia de los generadores convencionales de texto a imagen y de texto a vídeo. A diferencia de Midjourney, por ejemplo, VideoPoet no usa un modelo de difusión para generar imágenes a partir de ruido aleatorio. Ese enfoque funciona bien para imágenes individuales, pero fracasa en vídeos en los que el modelo necesita tener en cuenta el movimiento y así mismo, la coherencia a lo largo del tiempo.
VideoPoet de Google es un modelo de lenguaje de gran tamaño. Esto quiere decir que, se basa en la misma tecnología que impulsa ChatGPT de OpenAI y Google Bard y que puede predecir cómo encajan las palabras para formar oraciones. VideoPoet lleva ese concepto un paso más allá, debido a que también es capaz de predecir fragmentos de vídeo y audio, y no sólo texto.
Según se ha podido conocer, VideoPoet requirió un proceso de capacitación previa especializado que implicó traducir imágenes, cuadros de video y así mismo, clips de audio a un lenguaje común, denominado tokens. En pocas palabras, el modelo aprendió a interpretar diferentes modalidades a partir de los datos de entrenamiento. Desde Google señalan que utilizaron mil millones de pares de imagen y texto y 270 millones de muestras de videos públicos para entrenar a VideoPoet. En última instancia, VideoPoet se ha vuelto capaz de predecir tokens de video tal como un modelo LLM tradicional predeciría tokens de texto.
Es vital tener presente que, VideoPoet tiene una base sólida y esto es gracias a su capacitación que también le permite realizar tareas más allá de la generación de texto a video. Por ejemplo, tiene la capacidad de poder aplicar estilos a videos existentes, así como también efectuar ediciones como añadir efectos de fondo, cambiar la apariencia de un video existente con filtros y cambiar el movimiento de un objeto en movimiento en un video existente. Desde Google demostraron esto último con un mapache bailando en varios estilos.
Disponibilidad de Google VideoPoet
Es necesario aclarar que aunque Google ha publicado docenas de videos de ejemplo para demostrar las fortalezas de VideoPoet, no llegó a anunciar un lanzamiento público. En otras palabras, hasta el momento, no sabemos cuándo podremos usar VideoPoet así que para conocer este y otros detalles como por ejemplo; precios, tendremos que esperar un poco y mantenernos atentos, pero ¡no se preocupe! que desde TECHcetera los mantendremos al tanto.