La nueva IA de Meta supera a Google Translate: traduce 200 idiomas en tiempo real
NLLB-200 se traduce como 'Ningún idioma se queda atrás' y pretende democratizar la comunicación en redes sociales y en el metaverso.
7 julio, 2022 16:40Traducir un mensaje o vídeo en internet en inglés o en toros idiomas como el francés o el español no supone mucha dificultad desde hace tiempo. Los modelos de inteligencia artificial han facilitado mucho esta tarea, pero aún quedan muchos retos, como traducir textos con un lenguaje complejo o llegar a idiomas ignorados hasta ahora por la tecnología.
[Me fui a Nueva York con este traductor automático y me dejó tirado en mitad de una entrevista]
Los investigadores de Meta (antes llamada Facebook) la compañía de Mark Zuckerberg trabaja desde hace años en NLLB-200 un modelo de lenguaje que acaba de salir al mundo. Su capacidad para traducir hasta 200 idiomas pretende facilitar las interacciones en las redes sociales, pero también en el metaverso.
El sistema NLLB-200, acrónimo de No Language Left Behind (Ningún idioma se queda atrás) presume de cifras superiores a los 133 que 'entiende' Google Translate. Asegura Zuckerberg que su nueva IA puede realizar 25.000 traducciones cada día en todas las apps de Meta, como Facebook o Instagram, pero también WhatsApp, donde podría usarse para traducir audios.
Torre de Babel
Puede traducir tanto un mensaje escrito como reconocer la palabra hablada. La herramienta pretende facilitar la comunicación entre 4.000 millones de personas cuyos idiomas no se habían aplicado a las principales plataformas. La tecnología dominante se ha desarrollado centrando en el inglés y en segundo lugar a idiomas como el español, el portugués o el árabe.
Pero ¿qué pasa con el lingala, una lengua hablada en la República Democrática del Congo y otros países? Meta explica que este idioma lo hablar 45 millones de personas, pero solo cuenta con 3.260 entradas en Wikipedia. En cambio, solo 10 millones hablan el sueco y tienen 2,5 millones de páginas de la enciclopedia online escritas en su idioma.
NLLB-200 habría nacido para solucionar esa desigualdad y dar espacio y presencia a todos los hablantes de las 200 lenguas en internet, pero también en la próxima gran evolución, el metaverso. La compañía de Marz Zuckerberg apenas da un paso si no está enfocado en esta dirección. En el futuro esta inteligencia artificial se fusionará con sus gafas de realidad aumentada para traducir simultáneamente a cada 'habitante' del nuevo universo virtual.
[El vídeo que muestra el caos para relacionarse en el metaverso]
Así se ha creado
El nuevo modelo traduce directamente del idioma de origen a otro, por muy desconocidos que sean, sin necesidad de pasar por el inglés como puente de unión entre todos. Esta peculiaridad es herencia de una IA anterior, M2M-100 que presentaron en 2020.
Check out our latest breakthrough in machine translation that Mark Zuckerberg just announced. We built and open sourced a state-of-the-art AI model that now translates between 200 different languages.
— Meta AI (@MetaAI) July 6, 2022
Meta ha entrenando a su modelo con 50.000 millones de parámetros en el RCS (AI Research SuperCluster, el superordenador más potente jamás construido en el que trabajan para dar vida al metaverso. Otros modelos se han nutrido de más parámetros como GPT-3 de Open AI que recurrió a 175.000 millones, pero el hito de esta nueva tecnología es el número de idiomas diferentes.
Para navegar con soltura entre esa inmensa red de lenguas se necesitan combinar frases en millones de oraciones emparejadas. El resultado se ha puesto a prueba ante un popular benchmark de traducción, BLEU (BiLingual Evaluation Understudy). NLLB-200 ha mejorado en un 44% los resultados de los mejores sistemas de traducción automáticos de traducción.
Código abierto
Frente a otros modelos como los de OpenAI que se mantienen bajo control de la organización que los creó para evitar que se usen de forma abusiva, Meta ha decidido liberar su algoritmo de traducción. Es parte de su intento de igualar a cada usuario de internet y democratizar la red.
Han publicado en código abierto el modelo de NLLB-200, en la plataforma GitHub. Su código de entrenamiento servirá de ayuda a otros investigadores para mejorar sus herramientas de traducción y desarrollar nuevas aplicaciones y tecnologías.