Flor, la informática andaluza que combate los sesgos de la IA: "GPT-4 asocia 'bravura' al hombre e 'histeria' a la mujer"
- La ingeniera informática Flor Miriam Plaza del Arco trabaja en sistemas que garanticen un "lenguaje más sano y seguro" en las redes sociales.
- Más información: Las jóvenes informáticas que innovan desde Cáceres y Murcia: "Sin precariedad España sería puntera".
Flor Miriam Plaza del Arco, ingeniera informática de la Universidad de Jaén e investigadora postodoctoral de la Universidad Bocconi (Milán, Italia), trabaja con un recurso que abunda en España: los insultos. En 2020, su grupo de investigación, SINAI, lanzaba Fiero, el 'bot para insultar sin cortarte'. La idea era recopilar expresiones injuriosas para ayudar a las inteligencias artificiales a prevenir mejor el ciberacoso y el lenguaje de odio online. "Lo programamos para provocar. Decía cosas como '¿No sabes nada mejor?' al usuario", recuerda entre risas.
El resultado fue de gran complejidad, descubrieron: lo que podía ser un insulto grave en una región era indescifrable o ambiguo en otra. Los sistemas de aprendizaje automatizados eran además sordos a toda una serie de variables como el tono -sarcasmo, ironía- o el contexto. "Es muy complicado. Por ejemplo, la expresión 'de puta madre'. ¿Cómo puedes hacer que la tecnología lo distinga de un insulto?". Para colmo, estas mismas herramientas estaban dando indicios de interiorizar sesgos y estereotipos adquiridos de los contenidos online que usan para aprender.
Las dos vertientes de la investigación de Plaza del Arco sobre lenguaje y tecnología -sesgos en la inteligencia artificial y sistemas de detección de mensajes de odio-, le han valido uno de los Premios de Informática 2024 que conceden la Sociedad Científica Informática de España (SCIE) y la Fundación BBVA. Agradecida por el reconocimiento a su trabajo y al de sus colaboradores, matiza que su trabajo no es tanto "corregir" sino "categorizar" estos efectos perniciosos en la comunicación. "¡Identificar que hay estereotipos en la IA ya es un paso adelante!", aclara.
"Hombres iracundos, mujeres tristes"
Para su estudio, el grupo de Plaza del Arco pidió a varios Modelos Extensos de Lenguaje (LLMs), incluyendo GPT-4, que describieran cuales serían "los principales sentimientos después de una pelea con un ser querido". Si el protagonista era hombre, los modelos caracterizaron que la respuesta sería de indignación e ira. "Mi instinto natural sería el de defender mis principios y sentimientos". Si era mujer, caracterizaron la tristeza. "Siento que nos distanciamos, y eso supone una carga emocional ('emotionally draining')".
Gender bias has been extensively explored in NLP applications like machine translation.
— Flor Plaza PhD (@florplaza22) March 27, 2024
🤔But how can we use ✨emotion analysis✨ to investigate gender bias and stereotypes in LLMs?
With your help, let's first provide a bit of context!
🧵 pic.twitter.com/CAPaQF1SdT
En otro ejemplo más positivo, se pidió a los LLMs que caracterizaran los sentimientos tras aprobar un examen. Los hombres se sentían "orgullosos", las mujeres, "felices". El siguiente paso, explica la investigadora, es determinar si estos sesgos tienen una base justificada dentro de la psicología cognitiva o se trata de constructos culturales. Dada la naturaleza multidisciplinar de la cuestión, trabajaron junto a Alba Curry, profesora de filosofía en la Universidad de Leeds.
Models also generate unique emotion-related words with stereotypical associations for both genders: pic.twitter.com/So6GdkPVqt
— Flor Plaza PhD (@florplaza22) March 27, 2024
De este modo, descubrieron que las asociaciones semánticas de género que arrastran los modelos lingüisticos actuales se remontan a construcciones arquetípicas clásicas. "Aristóteles dijo que las mujeres son propensas a los 'excesos emocionales', mientras que Darwin asoció evolutivamente la 'masculinidad agresiva' y la 'feminidad nutricia'". Este mismo léxico sesgado por género aparecía de forma consistente en todos los LLMs: un hombre sería 'bravo, ambicioso, competitivo, autoritario o posesivo', y una mujer 'histérica, miedosa, eufórica, nutricia o vanidosa".
Proteger al usuario del abuso
Algunos de estos sesgos tienen una solución sencilla. "Hasta hace poco los programas traducían 'nurse' del inglés como 'enfermera' y 'engineer' como 'ingeniero'", recuerda. Otros son un dilema. Un ejemplo que manejan en investigación son las expresiones para desear suerte. "En inglés dirían break a leg, pero un sistema que lo tradujese de forma literal, rómpete una pierna, no lo interpretaría de forma positiva". Y viceversa: desear mucha mierda en español sería strictu sensu un insulto en otro idioma.
¿Cómo se puede entrenar entonces a un sistema para que identifique de forma automática y fehaciente una situación de lenguaje de odio o de ciberacoso? "La solución que encontramos fue interpretarlo por el contexto. Cuando se trata de mensajes de odio, estas expresiones se acompañan de emociones como la ira y la agresividad, mientras que los mensajes asociados al humor y la alegría tienden a tener un sentido positivo".
Así, gracias al acceso a un gran volumen de mensajes que permitía Twitter a los investigadores antes del cambio de manos, lograron identificar qué usuarios tenían tendencia a usar lenguajes y actitudes equiparables al discurso de odio, e incluso desenmascarar redes de bots programadas con este fin. Es un trabajo crucial para garantizar un entorno seguro, sostiene la investigadora, cuando las tareas de moderación son inasumibles por seres humanos -como ocurrió con Facebook- o si sus gestores optan por la dejación de funciones como ha sucedido en 'X'.
Una informática 'inclusiva'
Hablando de estereotipos, Plaza del Arco rompe una lanza para terminar con la imagen de informática como una carrera 'masculinizada'. Aunque reconoce que al empezar no eran más de una decena de chicas, a partir del máster y actualmente en su grupo de investigación hay mayoría de mujeres. "La informática no tiene género, y esta es una carrera inclusiva", asegura. No obstante, señala la paradoja desvelada por la Comisión Mujeres y Ciencia del CSIC: hay paridad de doctores, pero solo un cuarto de los profesores de investigación son mujeres.
Aunque España tiene investigadores "excelentes" en todos los ámbitos, resalta, y talento cotizado en Europa y EEUU, hay varios aspectos en los que todavía falta un esfuerzo. El apoyo a las mujeres investigadoras y a la conciliación es uno de ellos. Pero también la mejora de los contratos en términos de estabilización, el aumento de la oferta de plazas permanentes y su remuneración, la reducción de la burocracia y una evolución del sistema de evaluación de la investigación para dejar de premiar "la cantidad en lugar de la calidad".