Las lenguas minoritarias en la IA, a debate: "Hay una brecha abismal con otros idiomas, pero espacio para todos"
El País Vasco acoge una jornada sobre el procesamiento de lenguaje natural, en el que expertos y políticos regionales apuestan por buscar un hueco en el PERTE.
18 junio, 2022 02:56El debate sobre el procesamiento del lenguaje natural, o lo que es lo mismo, cómo aplicar la inteligencia artificial a nuestro (o nuestros idiomas) está abierto. Ya no por su utilidad o no, que es indiscutible, sino por el grado de implantación que debe tener, la profundidad a la que debe llegar.
En España, como todo el mundo sabe, cohabitan en algunos territorios varias lenguas oficiales. Y el catalán, el euskera y el gallego están abanderando el discurso de la necesidad de que no caigan en el olvido en el mundo digital.
El Palacio de Miramar de San Sebastián (País Vasco) acogió hace unos días una jornada titulada 'Transición Digital Multilungüe en la nueva economía de la lengua', celebrado e impulsado por la Sociedad Española de Procesamiento del Lenguaje Natural (SEPLN) con el apoyo del Departamento de Cultura y Política Lingüística del Gobierno Vasco y del centro de investigación HiTZ de la Universidad del País Vasco (UPV/EHU).
El evento contó también con la colaboración del CiTIUS de la Universidad de Santiago de Compostela, el CENID, el CEATIC de la Universidad de Jaén y el BSC.
El objetivo de esta jornada quedó fijado de forma inmediata: dar respuesta a retos como acometer con éxito una transición digital multilingüe, garantizar la pervivencia digital de todas las lenguas y culturas, rentabilizar socioeconómicamente el multilingüismo a través de la innovación e impulsar la colaboración público-privada.
[La RAE quiere "imponer" sus normas a la inteligencia artificial]
La premisa, manifestada por la organización, tiene que ver con que "usamos el lenguaje, nuestro medio natural de comunicación, para codificar, almacenar, transmitir, compartir y manipular información, pero la mayor parte de la información digital disponible es información no estructurada en forma de documentos (escritos o hablados) en múltiples idiomas, lo que representa un desafío para cualquier organización que quiera explotar y procesar esta información".
En este sentido y por lo tanto, "el lenguaje es y debe estar en el centro de nuestros esfuerzos para desarrollar la inteligencia artificial porque la tecnología del lenguaje es posiblemente el campo más innovador de la inteligencia artificial con un impacto económico de crecimiento acelerado".
"Nuestra obligación es impulsar y llevar a cabo una transición digital exitosa de nuestras lenguas minorizadas".
Ahora bien, los resultados del proyecto European Language Equality, citados al inicio de la jornada, "este notable progreso tecnológico no se desarrolla por igual en todas las lenguas, existe una distancia abismal entre ellas".
El encuentro fue inaugurado por el consejero de Cultura y Política Lingüística del gobierno vasco, Bingen Zupiria, la rectora de la UPV/EHU, Eva Ferreira, y el presidente de la SEPLN, Alfonso Ureña.
Todos ellos destacaron la importancia de celebrar un evento de estas características contando con la presencia de los responsables de la administración pública, del ámbito industrial y empresarial, y también expertos del ámbito científico y académico.
Zupiria señaló como punto de partida de su reflexión que "nuestra sociedad es cada vez más plurilingüe y tecnológica, una realidad que nos lleva a diseñar y ejecutar políticas concretas". En palabras del consejero, "las lenguas deben convivir, grandes y pequeñas; hay espacio para todos, y nuestra obligación es impulsar y llevar a cabo una transición digital exitosa de nuestras lenguas minorizadas".
[Así será el PERTE del idioma español]
La integración efectiva del euskera en las tecnologías lingüísticas y en la inteligencia artificial "se centra en el trabajo en común, en el compromiso de las instituciones públicas y en la continua integración del conocimiento y experiencia de los centros de investigación y de las empresas".
Partiendo de este punto de partida, el Departamento de Cultura y Política Lingüística ha puesto en marcha el 'Plan de Acción de Tecnologías Lingüísticas GAITU 2021-2024'. Se trata de un Plan de Acción Interdepartamental del Gobierno Vasco que recoge los proyectos en marcha y los que se desarrollarán a lo largo de la legislatura.
La rectora de la UPV/EHU, Eva Ferreira, por su parte, añadió que "a menudo se habla de la economía global pero no tanto de su irremediable consecuencia: una cultura global. Las lenguas no habitan espacios separados, sino que se superponen, en un mundo donde las fronteras físicas ya han desaparecido y las fronteras políticas, en buena medida, también".
Al respecto sugirió que "deben construirse puentes entre las distintas lenguas a través de las nuevas tecnologías. Y, en ese sentido, el centro de investigación HiTZ es hoy día una referencia a nivel internacional".
"Deben construirse puentes entre las distintas lenguas a través de las nuevas tecnologías y el centro de investigación HiTZ es un referente".
En la primera sesión de la jornada se presentaron las iniciativas públicas en marcha sobre Tecnología del Lenguaje. La comisionada especial para la Alianza por la Nueva Economía de la Lengua, Cristina Gallach, destacó "la necesidad de colaboración en iniciativas para el impulso de las lenguas cooficiales en la nueva economía digital, como el proyecto Aina en catalán, el proyecto Gaitu en euskera y Nós en gallego que deben coordinarse con el PERTE para favorecer las sinergias entre las distintas iniciativas y multiplicar su impacto en la sociedad".
Cabe recordar que, en el marco de los fondos de recuperación Next Generation, el 1 de marzo de 2022 fue aprobado el PERTE 'Nueva economía de la Lengua' que se plantea como una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional en áreas como la IA, la traducción, el aprendizaje, la divulgación cultural, la producción audiovisual, la investigación y la ciencia.
Para ello, cuenta con un presupuesto de 1.100 millones de euros de inversión pública, con el objetivo de movilizar otros tantos de inversión privada, dentro de la colaboración público-privada articulada a través de la Alianza para la Nueva Economía de la Lengua.
En este sentido, todos los participantes destacaron la importancia del desarrollo conjunto multilingüe, y de la necesidad de apostar de forma decidida por una sociedad multilingüe, y de la imprescindible colaboración en los desarrollos para el español, el catalán, el gallego y el euskara en el marco de las respectivas iniciativas para proporcionar datos, recursos y expertos para realizar con éxito la transición digital multilingüe y garantizar la pervivencia digital de nuestras lenguas y culturas.
Más debates
Durante la segunda sesión centrada en la Industria de la Lengua, Diego Vázquez (imaxin|software), Celia Sánchez (1MillionBot), Eudald Camprubí (Nuclia) y Lohitzune Txarola (Langune) destacaron el papel del PERTE como necesario, aunque no suficiente, "para llevar a nuestras lenguas a un estado de madurez tecnológica que las sitúe a la vanguardia de la sociedad y economía digitales, y que esto permita a su vez el desarrollo de una industria que pueda liderar incluso a escala mundial los servicios, productos y aplicaciones basados en TL, en particular en español".
La tercera sesión fue moderada por el presidente de la SEPLN, Alfonso Ureña, y se centró en la Investigación en Tecnología del Lenguaje. Los participantes, todos ellos destacados investigadores, Rodrigo Agerri (HiTZ), Marta Villegas (BSC), Marcos García (CiTIUS) y Rafael Muñoz (CENID) destacaron la importancia del cambio de paradigma que permite traducir más de cien idiomas simultáneamente, crear descripciones de imágenes y fotografías, generar texto indistinguible de la prosa humana, generar guiones de obras de teatro, crear imágenes fotorrealistas a partir de descripciones textuales, proporcionar explicaciones de alta calidad para chistes o sistemas que son capaces de resolver tareas para las que no han sido entrenadas con anterioridad.
A pesar de sus impresionantes capacidades, los grandes modelos de lenguaje tienen varios inconvenientes. "Actualmente su desarrollo está en manos de grandes multinacionales", explicaron.
Rodrigo Agerri, investigador Ramon y Cajal en el centro HiTZ de la UPV/EHU, subraya que "los modelos más avanzados están disponibles para el inglés, y no está claro que la tecnología actual pueda ser usada con idiomas de menos hablantes".
Durante la última sesión, centrada en la formación en Tecnología del Lenguaje, Maite Oronoz (HiTZ) y Maite Martin (CEATIC) destacaron la necesidad urgente de capacitar suficientes expertos en la IA centrada en el lenguaje.
"También hacen falta incentivos para atraer talento a esta área, dado que otros países y multinacionales están compitiendo fuertemente por ese talento", recalca Maite Oronoz, directora del máster Erasmus Mundus en tecnología del lenguaje de la UPV/EHU.