Es un hecho que en España y en el resto del mundo se está viviendo una auténtica revolución tecnológica con la inteligencia artificial. Desde que los modelos de IA generativa como GPT-4 o herramientas como ChatGPT irrumpieron en el mercado, compañías de todo tipo se han querido subir al carro, luchando por el liderazgo de dicha revolución. No obstante, algunas voces han hablado de la problemática que supone que estas compañías tengan tanta prisa por estandarizar esta tecnología.
Una de las principales críticas que estas voces resaltan sobre los modelos de IA actuales es el origen de los datos que usan sus desarrolladoras para entrenarlos. Un contenido que, como ya hemos visto en el pasado, puede dar lugar a comportamientos nocivos, como comentarios racistas o sesgados. Una nueva investigación del Washington Post revela cómo se están usando multitud de datos de origen cuestionable, ya sea por ser contenido protegido por derechos de autor o ligados a fuentes relacionadas con ideologías extremas y similares.
En esta investigación se analiza el conjunto de datos C4 de Google (su significado sería Colossal Clean Crawled Corpus), que recopila contenidos de más de 15 millones de sitios web que se han usado para entrenar a algunas IAs de alto calado, como LLaMA de Facebook o T5 de Google. Los resultados mostraron no solo preocupaciones a nivel de privacidad, sino cuestiones referentes al uso de contenido con copyright sin permiso de ningún tipo, así como contenidos con sesgos religiosos o racistas.
Datos usados para las IAs
Esta investigación se llevó a cabo usando datos de la startup Similar Web para realizar análisis de páginas de Internet. Además, se colaboró con investigadores del Instituto para la Inteligencia Artificial Allen, categorizando los sitios en distintos tipos. Uno de los titulares ya es llamativo; alrededor de un tercio de los sitios almacenados en C4 no se pudieron categorizar.
En general, el conjunto de datos incluye una gran variedad de tipos de webs, pero está principalmente compuesta por páginas relacionadas con el mundo del entretenimiento, la creación del contenido o el desarrollo de software. También se incluyen como webs dominantes las relacionadas con la medicina o el periodismo. Sí, todos campos que según los últimos estudios, están amenazados por el uso de la IA de forma irresponsable.
C4 nació de la organización sin fines de lucro Common Crawl, un recurso muy popular para modelos de IA que asegura que en C4 intentaron priorizar sitios de buena calidad, pero que en ningún caso intentaba evitar el contenido protegido con derechos de autor. En definitiva, sería una versión "limpia" del conjunto de datos de Common Crawl.
Pero ¿qué webs conforman el grueso de C4? El podio principal estaba ocupado por 'patents.google.com', una web que contiene contenido de patentes de todo el mundo. Le sigue Wikipedia, la mayor enciclopedia online del mundo, algo lógico. Y en tercera posición se encuentra Scribd, una página que haría las veces de biblioteca digital, aunque esta está limitada bajo modelos de pago.
Por el momento, nada extraño, ya que estas webs conforman una buena parte de la información general que se puede encontrar en Internet. No obstante, dentro de estas categorías se pueden observar webs que ya entrarían en un espectro más oscuro, como b-ok.org, una web que recopila una buena cantidad de e-books (libros electrónicos) totalmente pirateados.
Tanto esta web como otras 27 estaban calificadas como mercados perfectos para realizar piratería. b-ok.org y otras tantas webs que imitan a estas páginas estaban presentes en dicho conjuntos de datos. Por otro lado, se añaden otras páginas que en el vacío, no tiene mucho sentido que estén allí. Por ejemplo, se incluyen webs que venden contenedores de basura, productos para superar el agotamiento laboral e incluso un foro de jugadores del popular videojuego World of Warcraft.
Pero por si esto no fuera suficiente, hay mucho más. El Washington Post menciona webs que, por su existencia en el conjunto de datos C4, pueden entrañar verdaderos problemas en lo que a privacidad se refiere. Por ejemplo, coloradovoters.info y flvoters-com son páginas que cuentan con bases de datos estatales de votantes en Estados Unidos. Dichos datos son públicos, pero al estar presentes en esta base, implicaría que los modelos podrían usar esta información personal de forma indebida.
Luego está el problema del copyright. Y es que las webs de carácter industrial o comercial suponen la parte más grande del pastel, y algunas de las páginas más importantes incluyen servicios como Kickstarter o Patreon. Esto podría dar acceso a los modelos de IA al contenido de ciertos artistas, lo que podría llevar a que estas imitaran su trabajo para satisfacer los comandos de los usuarios de forma eficiente.
Este es quizás uno de los mayores problemas, ya que los artistas no reciben ningún tipo de crédito por la creación de trabajos basados en IA en los que se usan sus datos. De hecho, los artistas actualmente están en pie de guerra por este hecho, con casos conocidos de IAs que directamente roban el estilo de los artistas para crear sus imágenes. Así, webs como DevianArt que han introducido el arte generado por IA han sido demandadas por estos artistas.
En definitiva, el análisis del Washington Post revela que el conjunto de datos C4 de Google tendría hasta 200 registros de webs en las que se denota trabajo registrado con copyright. Sin ir más lejos, C4 está repleta de webs de medios internacionales, lo que ha llevado a que algunas de estas agencias critiquen que se use su contenido sin ningún tipo de crédito o autorización. Por otro lado, se incluyen webs y medios conocidos por su parcialidad, como sería el caso de Russia Today o Breitbart, un portal dedicado a difundir bulos de extrema derecha.
Esto no es en absoluto un tema baladí. Junto a RT o Breitbart también se encuentran webs como vdare.com, un sitio que promueve el odio hacia los inmigrantes y que usualmente ha sido relacionado con el ideario de supremacía blanca. Recordemos que los datos no contrastados o de fuentes no confiables pueden llevar a dar respuestas erróneas o directamente problemáticas, con connotaciones racistas o xenófobas, y sin que el usuario pueda encontrar el origen de dichas respuestas.
Problemas éticos y religiosos
Los problemas relacionados con el racismo o la xenofobia han sido una constante en el mundillo de la inteligencia artificial, con modelos que directamente convertían personas negras en blancas o experimentos como el de Tay de Microsoft que salían tremendamente mal. C4 tiene en su conjunto webs religiosas, y en algunos casos se incluyen sitios que incluyen prejuicios o contenido problemático hacia religiones como el Islam u otras religiones.
Algunos ejemplos. Uno de estos sitios, Grace to You, pertenece a una corporación religiosa evangélica de California, en la que se promueven valores machistas que piden directamente a las mujeres de maridos abusivos someterse a estos. Otro sitio, Jewish World Review, aseguró en uno de sus artículos que el antisemitismo existente en Estados Unidos estaba ligado a las comunidades afroamericanas de Black Lives Matter y al "islam fundamentalista de extrema derecha".
Estas cuestiones también se ven reflejadas en las webs de contenido personal, como los blogs. C4 integra más de medio millón de blogs, entre los cuales hay textos que hablan sobre el amor o critican otras religiones con sesgos racistas o, como mínimo, con sesgos religiosos. Sesgos que se podrían ver reflejados en las respuestas de los chatbots que usen C4.
¿No hay controles?
Hay que aclarar que Google no introdujo todos los datos que encontró en C4 sin más. Como muchas otras empresas, antes de introducir los datos en el conjunto, realizó un filtrado general del contenido, eliminando todo tipo de términos. Por ejemplo, la empresa usó una lista de filtrado de código abierto llamado "Lista de palabras sucias, pervertidas, obscenas y malas de otro modo", que incluye 402 términos en inglés y el emoji de la peineta.
[España inicia la investigación contra ChatGPT por vulneración de la protección de datos]
Esta lista fue elaborada en 2012 por empleados de Shutterstock, naciendo como una característica de seguridad para la función de autocompletar en los cuadros de búsqueda del servicio. En 2019, investigadores de Google anunciaron que usaron esta lista en una colección de miles de millones de palabras extraídas del modelo original de C4.
De esta forma, la lista que tiene como objetivo limitar la exposición de un modelo a contenido problemático (insultos racistas, obscenidades, etcétera) resultó ser tremendamente eficiente. Pero también generó polémica, ya que según demostraron investigaciones, esta lista tenía algunas incongruencias. Por ejemplo, LDNOOBW (las siglas de la lista de código abierto) borra contenido relacionado con el colectivo LGTBQ+, sin que sea de carácter sexual.
Además, el propio Washington Post ha encontrado que, incluso habiéndose aplicado la lista al modelo, este tiene webs pornográficas e instancias relacionadas con términos prohibidos de la propia lista. Los filtros no eliminaron algunos contenidos de carácter extremista, que incluían sitios supremacistas blancos, anti colectivo trans, etcétera. Por ejemplo, en dicho modelo se encuentra 4chan, un foro multitudinario conocido por sus graves polémicas pasadas.
El caso de C4 es solo una vista a lo que está ocurriendo con esta clase de modelos de inteligencia artificial. No obstante, C4 se queda pequeño ante otros conjuntos de datos. Sin ir más lejos, el predecesor de GPT-4, GPT-3 comenzó con datos de entrenamiento que incluían 40 veces más datos que los ubicados en C4. Es de esperar que con la popularización de estos modelos, el escrutinio sobre el tratamiento de estos datos y sobre el contenido usado para entrenarlos se intensifique enormemente.