MarIA es el primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española. Por su volumen y capacidades, sitúa a nuestro idioma en el tercer puesto de los que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín.
Se ha construido a partir del patrimonio documental digital de la Biblioteca Nacional de España (BNE), que rastrea y archiva las webs elaboradas en español, y se ha entrenado con el superordenador MareNostrum 4.
Y se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar en infinidad de uso. Cinco meses después de su lanzamiento, el sistema expande sus capacidades para el uso del lenguaje.
Modelos para comprender la lengua y generar textos
Un modelo de lenguaje es un sistema de inteligencia artificial formado por conjunto de redes neuronales profundas entrenadas para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto.
Estos modelos estadísticos complejos, que relacionan palabras en textos de modo sistemático y masivo, son capaces de 'entender' no sólo conceptos abstractos, sino también el contexto de los mismos. Con ellos, los desarrolladores de diferentes aplicaciones pueden crear herramientas para múltiples usos, como clasificar documentos o crear correctores o herramientas de traducción.
La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que crea modelos del lenguaje del tipo 'codificadores'. Este tipo de modelos, dada una secuencia de texto, generan una interpretación que puede servir para, por ejemplo, clasificar documentos, responder a preguntas tipo test, encontrar similitudes semánticas en diferentes redactados o detectar los sentimientos que se expresan en ellos. La nueva versión ha sido creada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores y añade prestaciones al sistema.
Los modelos decodificadores, dada una secuencia de texto pueden generar nuevos textos. Con ello, pueden servir, por ejemplo, para hacer resúmenes automáticos, simplificar redactados complicados a la medida de diferentes perfiles de usuario, generar preguntas y respuestas, mantener diálogos complejos con los usuarios e incluso redactar textos completos (que podrían parecer escritos por humanos) a partir de un titular o de un pequeño número de palabras.
IA en español
Estas nuevas capacidades convierten a MarIA en una herramienta que, con entrenamientos 'ad hoc' adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores de aplicaciones, empresas y administraciones públicas.
Por ejemplo, los modelos que hasta ahora se han desarrollado en inglés se utilizan para generar sugerencias de texto en aplicaciones de escritura, para resumir contratos o los complicados documentos que detallan las prestaciones de un producto, en función de lo que quiere saber cada usuario, y para buscar informaciones concretas dentro de grandes bases de datos de texto y relacionarlas con otras informaciones relevantes.
“Con proyectos como MarIA, damos pasos firmes hacia una inteligencia artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española. Porque la lengua es mucho más que un medio de comunicación. Es una proyección de la forma que tenemos de ver el mundo, también en la nueva realidad digital”, ha señalado la secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, durante el evento que ha tenido lugar esta mañana en la BNE.
“Como institución responsable del depósito legal electrónico, la Biblioteca Nacional de España conserva millones de sitios web, millones de palabras que se repiten en un contexto determinado y que son producto de muchas recolecciones de la web española, tanto de dominio.es como selectivas, realizadas desde hace años por los equipos de la BNE, lo que conforma el gran corpus del español que hoy se habla en nuestro país", ha explicado Ana Santos, directora de la BNE.
"Para nosotros es una gran satisfacción que estos archivos resulten de utilidad para este proyecto pionero, basado en tecnologías de inteligencia artificial, que va a permitir que las máquinas puedan comprender y escribir en lengua española, lo que supone un hito en el campo del procesamiento del lenguaje natural”.
Por su parte, el director del BSC-CNS, Mateo Valero, ha agradecido la iniciativa de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA) de impulsar temas de futuro, como la potenciación del idioma español en el mundo digital y el entorno de la IA: "Estamos encantados de poner nuestros expertos en lenguaje natural e inteligencia artificial y la capacidad de cálculo de nuestras infraestructuras al servicio de los retos relevantes para la sociedad, como al que da respuesta esta iniciativa”.
135 mil millones de palabras
En los modelos del lenguaje, el número de parámetros con los que se entrena el sistema es el elemento que les aporta mayor capacidad de generalización y, por tanto, inteligencia. Los datos de la BNE con los que se ha entrenado MarIA están constituidos por más de 135 mil millones de palabras (135.733.450.668, concretamente), que ocupan un total de 570 Gigabytes.
Para crear y entrenar a MarIA se ha utilizado el superordenador MareNostrum del BSC y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969.exaflops). Un flop (operación de coma flotante) es la unidad de medida con que se expresa la capacidad de cálculo de un superordenador por segundo y exa es el prefijo que expresa 1018, es decir, un trillón.
De estos 969 exaflops, 201 fueron necesarios para procesar los datos procedentes de la Biblioteca Nacional, eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc.) y guardar solamente los textos correctos en lengua española, tal y como es realmente utilizada. Los restantes 768 exaflops se utilizaron para entrenar las redes neuronales del modelo GPT-2.
Los últimos avances de MarIA constituyen un hito en la consecución de objetivos de la Estrategia Nacional de Inteligencia Artificial y del Plan de Recuperación, Transformación y Resiliencia, con los que España pretende liderar a nivel mundial el desarrollo de herramientas, tecnologías y aplicaciones para la proyección y uso de la lengua española en los ámbitos de aplicación de la IA.
En concreto, el Plan Nacional de Tecnologías del Lenguaje en el que se enmarca este proyecto, tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales.
La versión actual de MarIA dará lugar a versiones especializadas en distintas áreas de aplicación, incluyendo biomedicina y legal, y evolucionará para resolver los problemas específicos mencionados anteriormente.
En paralelo. el PlanTL continuara expandiendo MarIA para: adaptarse a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural (modelos más complejos que el GP-T2 ahora implementado) entrenados con mayor cantidad de datos, crear espacios de trabajo para facilitar el uso de MarIA por compañías y grupos de investigación en los entornos computaciones adecuados y embeberlos en sistemas de evaluación y certificación de la calidad de los sistemas desarrollados en distintos dominios.