Este fin de semana Carlos Fernando Galán (candidato a la Alcaldía de Bogotá) y Alejandro Eder (candidato a la Alcaldía de Cali) denunciaron una campaña sucia en su contra en la que se está utilizando Inteligencia Artificial para recrear sus voces y “ponerlos a decir” cosas que jamás han dicho con el fin de crear contenidos que luego se comparten en redes sociales para desprestigiarlos y afectar así la intención de votos a su favor.
Luego de las denuncias, un amigo me compartió uno de los video y me pidió le ayudar a entender cómo funciona esta tecnología de los DeepFakes de voz, así que como es costumbre, aquí está este video.
Hablemos de los Deepfakes de Voz o Spoofing de Audio
Piense, por un momento, en Alexa o en Siri. Oigales hablar. Nadie grabó todas las combinaciones posibles de palabras y frases que estos asistentes digitales utilizan en el día a día. Alguien (y por ahí hay un documental bien chévere de la señora que grabó las voces originales de Siri) leyó un lista -amplia- de palabras y algunas frases con las que los asistentes digitales fueron entrenados. Así mismo ocurre con estos deepfakes. Alguien toma snippets de la voz de su víctima (en este caso los candidatos de los cuales hay MUUUUCHO contenido disponible: entrevistas, discursos, tweets, posts, etc) y “entrena” un algoritmo con esa voz, con esos manierismos, con esa cadencia y con ese tono para crear un audio que parezca ser la víctima.
El mejor ejemplo que puedo darle, para que entienda el poder de los deepfakes de audio, es este de Elevenlabs en el que utiliza un discurso de Leonardo Di Caprio en las Naciones Unidas y en el que se utilizan voces generadas por Inteligencia Artificial de personajes como Joe Rogan, Steve Jobs y Bill Gates, entre otros, para reemplazar su voz.
Así como el algoritmo de ElevenLabs hay centenares de servicios web y aplicaciones, pagas y gratuitas, que permiten no solo tomar un audio y reemplazarlo con voces generadas con inteligencia artificial sino que, incluso, permiten generar esas conversaciones a partir de un sencillo prompt de texto que luego es “leído” con la voz que usted desee por ese algoritmo inteligente.
El año pasado, conocimos del caso de una empresa en el Reino Unido cuyo Gerente Financiero fue engañado con este método. Los ciberdelincuentes clonaron la voz de su jefe, el CEO de la compañía, y se hicieron pasar por él llamándolo a su teléfono e indicándole que había cerrado un negocio multimillonario y que había que girar $3 millones de euros para “pisarlo”. No sólo eso, “su jefe” le dijo que le estaba enviando un correo electrónico confirmando lo que habían hablado e incluyendo las instrucciones del giro. Giro que el financiero completó confiado en que había hablado con su jefe.
Y tal vez lo más importante es entender que esto existe para que no “traguemos entero”, para que no caigamos en las trampas y para que no nos dejemos engañar.
TL;DR
@samirestefanco A propósito de las denuncias de @Carlos Fernando Galán sobre la campaña sucia en su contra utilizando #IA les cuento qué son los #Deepfakes de Audio o el AISpoofing, como tambien se le conoce a esta práctica de usar inteligencia artificial para recrear voces de personas