OpenAI ofrece acceso limitado a una plataforma de generación de texto a voz que desarrolló denominada “Voice Engine”, que tiene la capacidad de poder crear una voz sintética basada en un clip de 15 segundos de la voz de alguien. La voz generada por Inteligencia Artificial (IA) puede leer indicaciones de texto cuando se le ordena en el mismo idioma que el hablante o incluso en varios otros idiomas. A continuación, todos los detalles que debe conocer sobre el modelo de OpenAI para clonar voces.
Datos más destacados del modelo de OpenAI para clonar voces
OpenAI en su publicación de blog manifestó, “Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias”.
Vale la pena destacar que, según se informa, las empresas con acceso incluyen la empresa de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, así como también el fabricante de software de salud de primera línea Dimagi, el creador de aplicaciones de comunicación de Inteligencia Artificial Livox y así mismo, el sistema de salud Lifespan.
En estos ejemplos publicados por OpenAI, tiene la capacidad de poder escuchar lo que Age of Learning ha estado haciendo con la tecnología para generar contenido de voz en off preescrito, además de leer en voz alta “respuestas personalizadas en tiempo real” a los estudiantes escritas por GPT-4.
Primero, le traemos el audio de referencia en inglés:
Y aquí hay 3 clips de audio generados por Inteligencia Artificial (IA) basados en esa muestra.
Desde OpenAI expresaron que comenzaron a desarrollar “Voice Engine” a fines del año 2022 y que la tecnología ya ha logrado impulsar voces preestablecidas para la API de conversión de texto a voz y la función de lectura en voz alta de ChatGPT. Cabe destacar que, OpenAI ha mencionado que el modelo sólo estará disponible para unos 10 desarrolladores.
La generación de texto a audio con Inteligencia Artificial es un área de la IA generativa que sigue evolucionando. Aunque la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, en parte debido a las preguntas citadas por OpenAI. Algunos nombres en el espacio incluyen compañías como; Podcastle y ElevenLabs, que ofrecen tecnología de clonación de voz de IA.
Al mismo tiempo, el gobierno de Estados Unidos está tratando de frenar los usos poco éticos de la tecnología de voz AI. El mes pasado, la Comisión Federal de Comunicaciones prohibió las llamadas automáticas usando voces de Inteligencia Artificial (IA) luego de que las personas recibieran llamadas no deseadas de una voz del presidente Joe Biden clonada por IA.
Según ha señalado OpenAI, sus socios acordaron cumplir con sus políticas de uso que dicen que no usaran Voice Generation para hacerse pasar por personas u organizaciones sin su consentimiento. Igualmente requiere que los socios obtengan el “consentimiento explícito e informado” del hablante original, no creen formas para que los usuarios individuales creen sus propias voces y revelen a los oyentes que las voces son generadas por IA. Además, OpenAI también añadió marcas de agua a los clips de audio para rastrear su origen y al mismo tiempo, monitorear activamente cómo se usa el audio.
Desde OpenAI sugirieron varios pasos que creen que podrían limitar los riesgos en torno a herramientas como estas; incluida la eliminación progresiva de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la Inteligencia Artificial, así como también una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento de contenido de Inteligencia Artificial (IA).
Esperamos que cada uno de estos datos sobre el modelo de OpenAI para clonar voces le haya resultado sumamente útil y enriquecedor, vuelva pronto por más contenido interesante aquí a TECHcetera.