Freepik / Cookie Studio

Innovadores

La inteligencia artificial en español necesita lingüistas para hacerse entender

El objetivo del proyecto LEIA, liderado por la RAE, es regular el lenguaje de las máquinas para que estas hablen un correcto español. 

22 junio, 2021 01:15

Noticias relacionadas

El uso de la voz como herramienta para que los humanos interactúen con las máquinas ya forma parte de los hábitos diarios de muchos usuarios. No solo facilita su relación con los dispositivos, también los hace más accesibles para esa parte de la población que no está familiarizada con las prácticas digitales, como las personas de más edad.

Hablarle a una máquina para pedirle algo en principio debería ser más sencillo que recurrir a una interfaz donde teclear una pregunta o un término de búsqueda. Pero no siempre es así. No es extraño que el usuario tenga que repetir su petición para hacerse entender cuando, por ejemplo, usa alguno de los asistentes de voz disponibles en el mercado. 

El lenguaje natural no es siempre bien interpretado por estos dispositivos. Y el problema se agudiza cuando se usa un idioma diferente al inglés. Para velar por el buen uso del español en las máquinas, en 2019 nació el proyecto Lengua Española e Inteligencia Artificial (LEIA). “En estos dos años hemos avanzado mucho, pero aún nos queda un largo camino por delante”, ha reconocido Santiago Muñoz Machado, director de la Real Academia Española (RAE), en un encuentro con la prensa celebrado en formato híbrido.

“Queremos que las máquinas parlantes hablen bien español y se adecúen a los criterios establecidos por la RAE durante sus 300 años de historia. Por eso hemos puesto a disposición de las empresas tecnológicas todas las herramientas que tenemos para que las máquinas aprendan a escribir y a hablar nuestro idioma correctamente”, ha recordado Muñoz Machado.

LEIA nació con el apoyo de Telefónica, pero también cuenta con empresas como Google, Microsoft y Amazon. “Es una iniciativa abierta y ampliable, y el campo en el que hay que trabajar es enorme”.

Los matices del idioma

La tecnología encargada de que las máquinas entiendan a los hispanohablantes es la inteligencia artificial (IA), capaz de procesar el lenguaje como una combinación de letras y sonidos, pero para la que es difícil entender los matices de las palabras.

“LEIA ha llegado en un momento en el que la IA va a pasar a razonar sobre datos para hacerlo sobre el lenguaje. Y hay que garantizar que en esa nueva generación de inteligencia artificial en español va a estar en las mismas condiciones que otros idiomas”, ha manifestado David Carmona, director general de IA en Microsoft Corporation, que ha intervenido en el encuentro desde Seattle (Estados Unidos).

Por su parte, Chema Alonso, director de la unidad global de Consumo Digital de Telefónica y director técnico de LEIA, ha hecho hincapié en que “la mayoría de los lenguajes de programación se crean en inglés, por eso el desarrollo de la IA es en este idioma. Sin embargo, el español sigue siendo fundamental [lo hablan 580 millones de personas en el mundo], por esto tenemos que tener la ambición de que la tecnología haga uso de nuestro idioma y es importante que los gigantes del sector se comprometan”. 

En Amazon, por ejemplo, han diseñado su asistente Alexa en español teniendo en cuenta muchos matices: “Alexa se lanzó en inglés y cuando se hizo en español hubo que adaptar la construcción de las frases, trabajar mucho en el contexto, considerar los diferentes acentos que existen dentro del territorio español o añadir refranes”, detalla Marie Mulot, gerente general de Amazon Alexa en España.

Quien recuerda los problemas que les dio la palabra ‘mañana’, que en inglés se emplean dos términos diferentes para referirse a un periodo de tiempo dentro del mismo día (morning) y al día posterior al de hoy (tomorrow).

Gracias a la inteligencia artificial y a las técnicas de procesamiento de lenguaje natural (NPL, por sus siglas en inglés), “en Google hemos podido avanzar en muchos productos, como en el Asistente para dar visibilidad al castellano, en el teclado Gboard de Android o en mejorar el uso de Gmail y Google Docs”, enumera Ester Marinas, responsable de marca y reputación de Google España y Portugal.

Desde noviembre el paquete de aplicaciones Workspace no es solo capaz de detectar errores ortográficos en español, también realiza recomendaciones gramaticales “como el uso de los signos de exclamación e interrogación al principio de la frase”, describe Marinas.

Cómo entrenan las máquinas 

Para aprender a usar e interpretar bien un idioma, las máquinas entrenan utilizando datos. El problema surge cuando estos no son correctos. “Muchos modelos de datos masivos pueden contener errores y, por tanto, el aprendizaje de la IA no es el adecuado”, ha incidido Alonso. “El reto es garantizar que el uso delelel español con el que se han entrenado es el correcto”

Junto al contexto y los matices, también es especialmente complicado eliminar los sesgos de cualquier tipo, como los de género y edad. “Técnicamente es difícil porque se usan datos históricos masivos y hay que seguir trabajando mucho en ello”, reconoce Marinas.

Sobre lo que Carmona añade: “El desafío del idioma español es que contiene más información que el inglés, lo que plantea un problema técnico importante para saber cómo emplear el femenino y el masculino de manera adecuada”. Por ejemplo, cuando se realizan traducciones de las profesiones, donde el contexto ayuda.

Mulot ha explicado que en Amazon lo están solucionando, siempre que pueden, de una manera muy mecánica. “Ante la duda de que el asistente exprese ‘Espero que estés contento hoy’ o ‘Espero que estés contenta hoy’, la alternativa es ‘Espero que estés de buen humor’”. 

Los cuatro coinciden en que la solución pasa por dar a la inteligencia artificial un entrenamiento adicional, con el apoyo de expertos en lingüística y “haciendo uso de un modelo multimodal, en el que se incluyan textos e imágenes para crear ese contexto y el sentido que todavía falta”, añade el especialista de Microsoft. 

Alonso ha adelantado que en Telefónica ya están trabajando con todos los recursos de Enclave para seguir desarrollando Aura. “Esto nos ayuda a comprobar cómo entiende lo que le decimos los humanos y cómo contesta. Seguramente se convierta en el primer asistente con certificado de la RAE”.