Si hay algo que hay que señalar es que, los auriculares con cancelación de ruido se han vuelto muy buenos al momento de crear una pizarra en blanco auditiva. Sin embargo, permitir que ciertos sonidos del entorno del usuario pasen a través del borrado todavía supone un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta de forma automática los niveles de sonido para los usuarios, detectando cuando están conversando, pero el usuario tiene poco control sobre a quién escuchar o cuándo sucede esto. Recientemente, un equipo de la Universidad de Washington ha desarrollado un sistema de Inteligencia Artificial (IA) que permite a un usuario que lleva auriculares mirar a una persona que habla durante un lapso de tiempo de 3 a 5 segundos para “inscribirla”. El sistema, denominado “Target Speech Hearing”, cancela todos los demás sonidos del entorno y reproduce sólo la voz del hablante registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al hablante. A continuación, todos los detalles acerca de estos audífonos con IA.
Datos más destacados sobre estos audífonos con IA
Es de resaltar que el equipo presentó sus hallazgos el pasado 14 de mayo en Honolulu en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos. El código del dispositivo de prueba de concepto se encuentra disponible para que otros puedan desarrollarlo. Cabe acotar que, el sistema no está disponible comercialmente.
“Ahora tendemos a pensar en la IA como chatbots basados en la web que responden preguntas. Pero en este proyecto desarrollamos IA para modificar la percepción auditiva de cualquier persona que use auriculares, según sus preferencias. Con nuestros dispositivos ahora puedes escuchar claramente a un solo orador incluso si estás en un ambiente ruidoso con muchas otras personas hablando”, señaló el autor principal Shyam Gollakota , profesor de la Universidad de Washington en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen.
Vale la pena señalar que, para usar el sistema, una persona que usa audífonos estándar equipados con micrófonos presiona un botón mientras dirige su cabeza hacia alguien que habla. Las ondas sonoras de la voz de ese orador deberían llegar a los micrófonos de ambos lados de los auriculares simultáneamente; hay un margen de error de 16 grados. Los auriculares envían esa señal a una computadora integrada a bordo, donde el software de aprendizaje automático del equipo aprende los patrones vocales del hablante deseado. Según se informa, el sistema capta la voz de ese hablante y continúa reproduciéndola para el oyente, incluso cuando la pareja se mueve. La capacidad del sistema para centrarse en la voz registrada mejora conforme el hablante continúa hablando, lo que suministra al sistema más datos de entrenamiento.
Es crucial dar a conocer que, el equipo probó su sistema en 21 sujetos, quienes calificaron la claridad de la voz del hablante registrado casi el doble que el audio sin filtrar en promedio.
Cabe aclarar que, este trabajo se basa en la investigación anterior sobre “audición semántica” del equipo, que permitió a los usuarios seleccionar clases de sonidos determinados, como pájaros o voces, que querían escuchar y cancelar otros sonidos en el entorno.
Se debe tener en cuenta estos aspectos…
En este momento, el sistema TSH tiene la capacidad de poder inscribir solo un hablante a la vez, y solo puede inscribir a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo. Debe saber que, si un usuario no está satisfecho con la calidad del sonido, tiene la posibilidad de llevar a cabo otro registro en el altavoz para optimizar la claridad.
Finalmente, no hay que dejar de mencionar que, según se pudo conocer, el equipo se encuentra trabajando para ampliar el sistema a auriculares y audífonos en el futuro.