No es ningún secreto que la inteligencia artificial es una tecnología cada vez más utilizada en muchos ámbitos, y las posibilidades que ofrecen los modelos generativos como Dall-E 3 o ChatGPT, estando este último incluso ya presente en los móviles de Samsung de forma nativa
Ahora, Meta, la empresa propietaria de Facebook WhatsApp e Instagram, ha lanzado un nuevo modelo de IA, pero en este caso, dedicado a la clonación de voces y a la generación de audio. Además, tiene varias condiciones de uso para que no se pueda emplear de forma inadecuada.
Este modelo, llamado Audiobox, ya está disponible en la web de la compañía, y promete una gran fidelidad respecto a la realidad a la hora de generar voces y efectos de sonido. Para ello, puede mezclar tanto ejemplos de voces como indicaciones de texto proporcionadas por el usuario
Así es Audiobox
Esta inteligencia artificial tiene su origen en Voicebox, el modelo anterior que la compañía ya mostró este pasado verano, y que ahora llega de forma mejorada y con un nuevo nombre, además de con más posibilidades. Realmente, como afirma la compañía, no se trata de un solo modelo, sino de una familia de estos.
Para crearlo, se han utilizado más de 160.000 horas de habla, así como música y muestras de sonido para que sea capaz de sacar e interpretar datos. Su uso se puede separar en dos funciones principales: clonar voces de otras personas y generar efectos de sonido. Para ambas, se puede utilizar una grabación humana como modelo, o bien crear una voz.
Ambos usos se pueden combinar, ofreciendo el usuario tanto una entrada de voz como una descripción de lo que se busca que haga la IA, y los resultados se ajustan bastante a la realidad, aunque no son exactamente iguales que la voz humana. También permite generar voces artificiales utilizando únicamente la descripción. Todo se puede combinar en diferentes canales de audio en la misma grabación, tal como si se estuviera ante un programa de edición.
Sin embargo, hay que tener en cuenta que la compañía ha publicado esta herramienta con fines de investigación, lo cual le permite llevar a cabo una mayor recopilación de datos que si tuviera un uso comercial. De hecho, hay algunos lugares de Estados Unidos donde no se puede acceder porque sus leyes prohíben la recopilación de vídeo, tal como recoge VentureBeat. También hay que señalar que, por el momento, no se trata de una aplicación de código abierto, aunque en el futuro afirman que lo será