El proveedor de Inteligencia Artificial como servicio Assembly AI posee un nuevo modelo de reconocimiento de voz llamado “Universal-1”. Con más de 12,5 millones de horas de datos de audio multilingües, la compañía ha señalado que funciona bien con la precisión de la conversión de voz a texto en el idioma inglés, así como en español, francés y alemán. Se jacta de que Universal-1 tiene la capacidad de poder reducir las alucinaciones en un 30% en datos de voz y en un 90% en ruido ambiental en comparación con el modelo Whisper Large-v3 de OpenAI.
Lo que debe conocer sobre el modelo de IA Universal-1
Vale la pena señalar que, además de una mejor comprensión de 4 idiomas principales, el modelo tiene la capacidad de poder cambiar de código y transcribir varios idiomas en un solo archivo de audio.
El modelo de IA denominado “Universal-1”, también admite una estimación optimizada de la marca de tiempo, lo cual, viene siendo realmente importante cuando se trabaja con edición de audio y video y así mismo, análisis de conversaciones. Desde Assembly AI afirman que el nuevo modelo es un 13% mejor que su predecesor, el Conformer-2. Como resultado, hay un proceso superior para particionar la secuencia de audio de los hablantes, así como una tasa de error de palabras de permutación mínima concatenada (cpWER) mejorada del 14% y del mismo modo, una precisión de estimación del recuento de hablantes del 71 %.
Además, no se debe pasar por alto mencionar que, la inferencia paralela se ha vuelto más eficiente, lo que disminuye el tiempo de procesamiento de archivos de audio largos. Se dice que Universal-1 lleva a cabo esta tarea 5 veces más rápido que Whisper Large-v3. Cabe acotar que, Assembly AI comparó la velocidad de procesamiento de Universal-1 con Whisper Large-3 en máquinas Nvidia Tesla T4 con 16 GB de VRAM. Es de resaltar que, con un tamaño de lote de 64, el primero tardó 21 segundos en transcribir 1 hora de audio. Sin embargo, usando un lote mucho más pequeño de 24, este último tardó 107 segundos en realizar la misma tarea.
Es crucial señalar que, los beneficios de contar con modelos mejorados de IA de voz a texto son para quienes toman notas que, van a tener la capacidad de poder generar notas más precisas y sin alucinaciones, identificar elementos de acción y clasificar metadatos como nombres propios, quién habla e información sobre el tiempo. Igualmente, ayudará a los creadores de aplicaciones de herramientas que incorporen flujos de trabajo de edición de video impulsados por Inteligencia Artificial, plataformas de telesalud automatizadas para el ingreso de notas clínicas y procesos de envío de reclamos donde la precisión es algo realmente importante, y mucho más.
Finalmente, es inherente dar a conocer que, el modelo Universal-1 está disponible a través de la API de Assembly AI.