fbpx

Esta es la nueva herramienta de DeepMind

Los datos más destacados sobre la nueva herramienta de DeepMind.

Recientemente, Google DeepMind ha presentado una nueva herramienta de Inteligencia Artificial (IA) para generar bandas sonoras de videos. Además de usar un mensaje de texto para generar audio, la herramienta de DeepMind también tiene en cuenta el contenido del video. ¡Conozca todo a continuación!

 

Los datos más destacados sobre la nueva herramienta de DeepMind

Al combinar los dos, DeepMind señala que los usuarios tienen la capacidad de poder usar la herramienta para crear escenas con una partitura dramática, efectos de sonido realistas o diálogos que coincidan con los personajes y el tono de un video.

 

Vale la pena señalar que, aunque los usuarios tienen la posibilidad de incluir un mensaje de texto, DeepMind ha comentado que es opcional. Los usuarios tampoco requieren hacer coincidir meticulosamente el audio generado con las escenas apropiadas. Según DeepMind, la herramienta también tiene la capacidad de poder generar un número “ilimitado” de bandas sonoras para vídeos, lo que permite a los usuarios crear un flujo interminable de opciones de audio.

Cabe resaltar que eso podría ayudarlo a destacarse de otras herramientas de IA, como el generador de efectos de sonido de ElevenLabs, el cual usa indicaciones de texto para generar audio. También podría facilitar el emparejamiento de audio con video generado por Inteligencia Artificial a partir de herramientas como Veo y Sora de DeepMind (este último planea incorporar audio eventualmente).

Desde DeepMind han comentado que entrenaron su herramienta de IA en video, audio y así mismo, anotaciones que contienen “descripciones detalladas de sonido y transcripciones de diálogos hablados”. Esto permite que el generador de vídeo a audio combine eventos de audio con escenas visuales.

No se debe pasar por alto mencionar que, la herramienta todavía tiene algunas limitaciones. Por ejemplo, DeepMind está intentando optimizar su capacidad para sincronizar el movimiento de los labios con el diálogo, como puede observar en este vídeo de una familia de animación con plastilina. Desde DeepMind también han señalado que su sistema de vídeo a audio depende de la calidad del vídeo, por lo que cualquier cosa granulada o distorsionada “puede provocar una caída notable en la calidad del audio”.

Es inherente dejar claro que, la herramienta de DeepMind todavía no está disponible de forma generalizada, debido a que aún tendrá que someterse a “rigurosas evaluaciones y pruebas de seguridad”. Cuando esté disponible, su salida de audio incluirá la marca de agua SynthID de Google para indicar que está generada por Inteligencia Artificial.

Deja un comentario