LEIA busca el buen uso del español en el universo digital y las nuevas tecnologías. Ilustración: R. V.

LEIA busca el buen uso del español en el universo digital y las nuevas tecnologías. Ilustración: R. V.

Ciencia

La galaxia digital empieza a hablar español (correctamente)

El proyecto LEIA de la RAE, impulsado inicialmente junto a Telefónica, cumple el sueño de la Docta Casa de limpiar, fijar y dar esplendor gracias a la Inteligencia Artificial

2 mayo, 2022 02:40

Noticias relacionadas

“La evolución del machine learning (aprendizaje automático), el deep learning (aprendizaje profundo), el procesamiento de lenguaje natural y la robótica marcarán el futuro más inmediato de la Inteligencia Artificial”. Las palabras de Richard Benjamins (Chief AI & Data Strategist de Telefónica) e Idoia Salazar (presidenta de OdiseIA) en el libro El mito del algoritmo (Anaya) resumen a la perfección un futuro que la RAE está convirtiendo en presente gracias al proyecto Lengua Española e Inteligencia Artificial (LEIA).

Presentado en 2019 en el marco del XVI Congreso de la Asociación de Academias de la Lengua Española (ASALE), contó con el impulso inicial de Telefónica (aunque se sumaron después otras tecnológicas como Google, Amazon, Microsoft, Twitter, Facebook y Meta). La iniciativa tiene como objetivo el buen uso de la lengua española en el universo digital y, especialmente, en el ámbito de la IA y de las tecnologías actuales. “Queremos que las máquinas hablen un buen español, pero también que sea inteligible por el ciudadano”, ha señalado recientemente Santiago Muñoz Machado, director de la Docta Casa.

La IA como herramienta

Pero, ¿cómo se consigue alcanzar esta meta técnicamente? ¿Qué herramientas hay que utilizar para poder garantizar un buen uso del español en tantas aplicaciones? Para Chema Alonso, Chief Digital Officer de Telefónica, LEIA es una iniciativa que engloba múltiples proyectos porque hay infinidad de ramificaciones en la construcción de los modelos de inteligencia artificial.

“La tecnología debe aprender las interfaces de los humanos
y no al revés”. Chema Alonso (Telefónica)

“Para los algoritmos de IA que construyen los servicios cognitivos de reconocimiento y uso del lenguaje natural usamos modelos basados en transformers y word embedding”, explica a El Cultural. Estos modelos analizan millones de documentos para establecer las relaciones que tiene cada palabra con las otras palabras (y conjuntos de palabras) que encuentran en esos documentos.

Con todo ello, precisa Alonso, “el sistema de IA aprende qué palabras van juntas. Puede completar una frase o párrafo e incluso generar texto original. Forman la base de la traducción y corrección automáticas, entre otras aplicaciones”. En este proceso es fundamental conseguir que el aprendizaje sea acorde con las reglas de nuestra lengua, por lo que, constata el responsable de Telefónica, “tenemos el Diccionario de la RAE como punto central de la validación”.

Limpieza de datos

Nos hallamos, pues, ante una compleja y fascinante ruta por las entrañas de la inteligencia artificial que hasta la llegada de LEIA solo utilizaba modelos entrenados en documentos de internet como blogs o redes sociales, sitios que pueden contener errores en el español, cuando no deformación y simplificaciones. LEIA trabajará para que los corpus sean más correctos y también para la desaparición de los sesgos antes del entrenamiento a través de la limpieza de datos y después con su detección y eliminación.

Captura del video promocional de la RAE para divulgar LEIA. Foto: RAE

Captura del video promocional de la RAE para divulgar LEIA. Foto: RAE

Para todo ello, la RAE cuenta con recursos lingüísticos que permiten reducir los errores a la hora de validar lo aprendido gracias a las reglas del correcto español. “Si no lo hacemos dañaremos nuestra lengua – alerta Chema Alonso–. El Diccionario y su lexicón se integran directamente con los productos del socio tecnológico o se accede por API [interfaz de programación]”.

Es el caso de Movistar Plus+, donde se puede consultar por voz el significado de una palabra que accede en tiempo real al API de la RAE. Otro ejemplo son los juegos lingüísticos de Movistar Home y de Movistar Plus+, diseñados también en colaboración con la RAE, que ayudan a acercar el uso correcto del español a través de la tecnología existente en los hogares.

Una fase avanzada

La incorporación de asistentes de voz, procesadores de texto, buscadores, chatbots [simulación de conversaciones] y sistemas de mensajería instantánea sitúan ya a LEIA en una fase bastante avanzada. Según Carlos Merino, Jefe de Tecnología de la RAE, se recurrirá, entre otras formas de procesamiento de lenguaje natural, a los citados transformers o familias de modelos de inteligencia artificial basados en redes neuronales y entrenados con técnicas de aprendizaje profundo: “Trabajamos mano a mano con los expertos de las grandes tecnológicas para diagnosticar las necesidades que surgen al aplicar el uso de la lengua española en sus trabajos”.

Merino pone el dedo en la llaga de otro de los desafíos que el proyecto LEIA tendrá que afrontar: el predominio del inglés en el “discurso” de la inteligencia artificial: “La IA habla inglés fundamentalmente y con estas alianzas se va a procurar que, poco a poco, el español obtenga una posición eminente en ese mundo pero también en el de las redes en general. Es esencial crear fuentes en español al mismo nivel que el inglés”. Con este fin, la RAE está poniendo a disposición de las tecnológicas que se han sumado a LEIA materiales imprescindibles que cuentan con su sello de calidad “por cumplir la norma y preservar la unidad del idioma”.

Ante la avalancha tecnológica

Según Chema Alonso, impulsar este proyecto junto a la RAE es muy importante para Telefónica: “La tecnología debe aprender las interfaces de los humanos y no al revés, por eso hemos desarrollado Aura, nuestro asistente virtual, con inteligencia artificial. Para que nuestros clientes se relacionen de forma natural con la compañía. Ahora que estamos expuestos a una avalancha tecnológica, tenemos que asegurarnos de que la IA no solo hable español para que sea una tecnología inclusiva de la que se beneficien todos los hispanohablantes, sino que además lo hable correctamente”. En esta dirección, Muñoz Machado señala “que no basta con hacer grandes bancos de datos sino que estos no tengan sesgos, que no exista discriminación”.

Benjamins y Salazar se preguntan en su libro qué hace el algoritmo con los datos, y la respuesta tiene mucho que ver con el proyecto de la RAE: “Entrenarse para llegar a tomar la mejor decisión posible. Cuanto más se entrene, mejor llegará a la meta”. Y la meta de LEIA, con el apoyo de Telefónica, es que el correcto uso del español permeabilice en la galaxia digital.