TikTok y el logo de ByteDance. Dado Ruvic Thomson Reuters

Software

Hablar como otra persona, la peligrosa IA de los padres de TikTok que asusta a los expertos

ByteDance crea una IA que ayuda a los usuarios a hablar al instante con la voz de otra persona, lo que se podría usar para realizar estafas.

29 enero, 2024 12:48

Nacho Castañón @nachocastaf

La inteligencia artificial (IA) es una de las tecnologías de moda y, desde hace tiempo, puede realizar una gran variedad de tareas que van más allá de escribir un texto o crear imágenes a partir de unas palabras. Por ejemplo, ya resuelve problemas de la Olimpiada Internacional de Matemáticas o predice cuándo vas a morir con un 78% de precisión. Incluso ahora es capaz de imitar voces al instante, gracias a un nuevo modelo de IA de los creadores de TikTok.

El gigante tecnológico chino, ByteDance, empresa tras TikTok, ha creado un nuevo modelo de inteligencia artificial generativo que permite a los usuarios hablar al instante con la voz de otra persona; siempre y cuando se tenga "un solo enunciado" de la voz que se quiere imitar. Una herramienta denominada StreamVoice que aún no está a disposición del público y cuyo secreto está en LLaMA, un gran modelo de lenguaje lanzado por Meta AI en febrero de 2023.

StreamVoice es una herramienta de IA que ha sido entrenada con un conjunto de datos de habla mandarín y multilingües, entre los que se incluyen idiomas como el inglés, alemán y el finlandés; lo que le da a este modelo de inteligencia artificial la capacidad para adaptarse a cualquier idioma. Su funcionamiento es sencillo, el usuario habla en una conversación y la IA imita lo que dice con la voz de otra persona al instante.

Esquema del funcionamiento de la IA. arxiv.org Omicrono

Lo más curioso es que la producción de la imitación se realiza en tiempo real, con una latencia de tan sólo 124 segundos, según afirman sus creadores en un artículo. "Los experimentos demuestran la capacidad de StreamVoice para convertir el habla en streaming con una gran similitud entre hablantes, tanto vistos como invisibles, manteniendo un rendimiento comparable al de los sistemas de conversión de voz sin streaming", indican los investigadores.

Para crear StreamVoice sus creadores también utilizaron código abierto de AudioDec de Meta, que la empresa de Mark Zuckerberg describe como un "punto de referencia plug-and-play para aplicaciones de códecs de audio". Eso sí, los propios investigadores no indican cómo creen que debe usarse su nueva tecnología, aunque admiten que "puede conllevar riesgos potenciales de uso indebido con diversos fines, como la difusión de información falsa o el fraude telefónico".

[El año de la inteligencia artificial: de anécdota a una herramienta cada vez más útil y omnipresente]

Incluso los expertos ya alertan de los peligros de esta tecnología que van más allá de las posibles estafas; ya que también es una herramienta rápida y sencilla para hacerse pasar por algo o para crear lo que se conoce como deepfakes, un video, una imagen o un audio generado que imita la apariencia y el sonido de una persona.