El primer sistema masivo de inteligencia artificial de la lengua española empieza a resumir y generar textos

Noelia Hernández @NoeliaHn

MarIA es el primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española. Por su volumen y capacidades, sitúa a nuestro idioma en el tercer puesto de los que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín.

Se ha construido a partir del patrimonio documental digital de la Biblioteca Nacional de España (BNE), que rastrea y archiva las webs elaboradas en español, y se ha entrenado con el superordenador MareNostrum 4.

Y se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar en infinidad de uso. Cinco meses después de su lanzamiento, el sistema expande sus capacidades para el uso del lenguaje.

Modelos para comprender la lengua y generar textos

Un modelo de lenguaje es un sistema de inteligencia artificial formado por conjunto de redes neuronales profundas entrenadas para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto.

Estos modelos estadísticos complejos, que relacionan palabras en textos de modo sistemático y masivo, son capaces de 'entender' no sólo conceptos abstractos, sino también el contexto de los mismos. Con ellos, los desarrolladores de diferentes aplicaciones pueden crear herramientas para múltiples usos, como clasificar documentos o crear correctores o herramientas de traducción.

La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que crea modelos del lenguaje del tipo 'codificadores'. Este tipo de modelos, dada una secuencia de texto, generan una interpretación que puede servir para, por ejemplo, clasificar documentos, responder a preguntas tipo test, encontrar similitudes semánticas en diferentes redactados o detectar los sentimientos que se expresan en ellos. La nueva versión ha sido creada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores y añade prestaciones al sistema.

Los modelos decodificadores, dada una secuencia de texto pueden generar nuevos textos. Con ello, pueden servir, por ejemplo, para hacer resúmenes automáticos, simplificar redactados complicados a la medida de diferentes perfiles de usuario, generar preguntas y respuestas, mantener diálogos complejos con los usuarios e incluso redactar textos completos (que podrían parecer escritos por humanos) a partir de un titular o de un pequeño número de palabras.

IA en español

Estas nuevas capacidades convierten a MarIA en una herramienta que, con entrenamientos 'ad hoc' adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores de aplicaciones, empresas y administraciones públicas.

Por ejemplo, los modelos que hasta ahora se han desarrollado en inglés se utilizan para generar sugerencias de texto en aplicaciones de escritura, para resumir contratos o los complicados documentos que detallan las prestaciones de un producto, en función de lo que quiere saber cada usuario, y para buscar informaciones concretas dentro de grandes bases de datos de texto y relacionarlas con otras informaciones relevantes.

“Con proyectos como MarIA, damos pasos firmes hacia una inteligencia artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española. Porque la lengua es mucho más que un medio de comunicación. Es una proyección de la forma que tenemos de ver el mundo, también en la nueva realidad digital”, ha señalado la secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, durante el evento que ha tenido lugar esta mañana en la BNE.

“Como institución responsable del depósito legal electrónico, la Biblioteca Nacional de España conserva millones de sitios web, millones de palabras que se repiten en un contexto determinado y que son producto de muchas recolecciones de la web española, tanto de dominio.es como selectivas, realizadas desde hace años por los equipos de la BNE, lo que conforma el gran corpus del español que hoy se habla en nuestro país", ha explicado Ana Santos, directora de la BNE.

"Para nosotros es una gran satisfacción que estos archivos resulten de utilidad para este proyecto pionero, basado en tecnologías de inteligencia artificial, que va a permitir que las máquinas puedan comprender y escribir en lengua española, lo que supone un hito en el campo del procesamiento del lenguaje natural”.

Por su parte, el director del BSC-CNS, Mateo Valero, ha agradecido la iniciativa de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA) de impulsar temas de futuro, como la potenciación del idioma español en el mundo digital y el entorno de la IA: "Estamos encantados de poner nuestros expertos en lenguaje natural e inteligencia artificial y la capacidad de cálculo de nuestras infraestructuras al servicio de los retos relevantes para la sociedad, como al que da respuesta esta iniciativa”.

135 mil millones de palabras

En los modelos del lenguaje, el número de parámetros con los que se entrena el sistema es el elemento que les aporta mayor capacidad de generalización y, por tanto, inteligencia. Los datos de la BNE con los que se ha entrenado MarIA están constituidos por más de 135 mil millones de palabras (135.733.450.668, concretamente), que ocupan un total de 570 Gigabytes.

Para crear y entrenar a MarIA se ha utilizado el superordenador MareNostrum del BSC y ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969.exaflops). Un flop (operación de coma flotante) es la unidad de medida con que se expresa la capacidad de cálculo de un superordenador por segundo y exa es el prefijo que expresa 1018, es decir, un trillón.

De estos 969 exaflops, 201 fueron necesarios para procesar los datos procedentes de la Biblioteca Nacional, eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc.) y guardar solamente los textos correctos en lengua española, tal y como es realmente utilizada. Los restantes 768 exaflops se utilizaron para entrenar las redes neuronales del modelo GPT-2.

Los últimos avances de MarIA constituyen un hito en la consecución de objetivos de la Estrategia Nacional de Inteligencia Artificial y del Plan de Recuperación, Transformación y Resiliencia, con los que España pretende liderar a nivel mundial el desarrollo de herramientas, tecnologías y aplicaciones para la proyección y uso de la lengua española en los ámbitos de aplicación de la IA.

En concreto, el Plan Nacional de Tecnologías del Lenguaje en el que se enmarca este proyecto, tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales.

La versión actual de MarIA dará lugar a versiones especializadas en distintas áreas de aplicación, incluyendo biomedicina y legal, y evolucionará para resolver los problemas específicos mencionados anteriormente.

En paralelo. el PlanTL continuara expandiendo MarIA para: adaptarse a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural (modelos más complejos que el GP-T2 ahora implementado) entrenados con mayor cantidad de datos, crear espacios de trabajo para facilitar el uso de MarIA por compañías y grupos de investigación en los entornos computaciones adecuados y embeberlos en sistemas de evaluación y certificación de la calidad de los sistemas desarrollados en distintos dominios.

El Español

El primer sistema masivo de inteligencia artificial de la lengua española empieza a resumir y generar textos

Cinco meses después de su lanzamiento, MarIA, creado por el BSC a partir del archivo web de la BNE, amplía sus capacidades del uso del lenguaje.

Modelos para comprender la lengua y generar textos

IA en español

135 mil millones de palabras

Noticias relacionadas

nproxy.org