El archivo de internet, tumbado por una IA: sobrecargan la web con peticiones de 'ChatGPT'
La web Internet Archive denuncia cómo un gran flujo de peticiones a su librería ha provocado hasta dos caídas seguidas de su servicio.
29 mayo, 2023 17:26Hace un tiempo, saltaba una noticia en España bastante llamativa: la forma en la que las empresas entrenan sus inteligencias artificiales, reuniendo en un mismo conjunto de datos cientos de miles de fuentes de Internet (en algunos casos, bastante cuestionables). Esto podría estar provocando que algunos servicios importantes, como The Internet Archive no esté funcionando como debería.
Internet Archive, tal y como detallan en su web, es una inmensa librería sin ánimo de lucro que registra el historial de Internet hasta la fecha. Es, como rezan en su nombre, un gigantesco archivo de la red de redes, con el historial de más de 800.000 millones de páginas. Hace poco sufrió una caída, y desde el perfil de Twitter de la web se afirmaba que el posible causante era una compañía de IA usando sus archivos para entrenamiento.
Y es que según apuntan desde Internet Archive, la caída se debió a una oleada de tráfico "abusivo" de AWS, los servicios de computación en la nube de Amazon. Esta era la segunda oleada, aparentemente "de una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo".
Problemas de IA (otra vez)
Todo comienza con una caída el 29 de mayo, lo que obliga a la web a avisar en Twitter sobre lo sucedido. "Esta es nuestra segunda ráfaga de tráfico abusivo de un cliente de AWS hoy, aparentemente de una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo".
Tras esto, el fundador de The Internet Archive, Brewster Kahle, publicó una nota en Internet Archive sobre lo que acababa de suceder. "Se lanzaron decenas de miles de solicitudes por segundo para nuestros archivos OCR de dominio público desde 64 hosts virtuales en los servicios AWS de Amazon".
Sorry, but https://t.co/rvOhn0c6zM is down temporarily-- working to restore service.
— Internet Archive (@internetarchive) May 29, 2023
(details: this is our second blast of abusive traffic from an AWS customer today apparently from an AI company harvesting Internet Archive texts at an extreme rate)
Esto, incluso para los estándares web, es muchísimo. Esto provocó que la actividad de archive.org cayera por completo durante una hora. Lo hicieron bloqueando las direcciones IP desde la que venían las solicitudes. No obstante, un par de horas después otras 64 direcciones iniciaron la misma actividad, y aunque descubrieron como bloquear este nuevo conjunto de solicitudes, provocó otra nueva caída.
Por el momento, The Internet Archive no ha confirmado que esto provenga de una empresa de inteligencia artificial. Sin embargo, este es el perfil que más encaja, porque otra alternativa sería un usuario de los AWS que, por algún motivo, requiriera grandísimas cantidades de información de la librería de The Internet Archive.
Let us serve you, but don’t bring us down
— Brewster Kahle (@brewster_kahle) May 29, 2023
What just happened on https://t.co/Hk02WjumkL today, as best we know: https://t.co/a9MaSwSH4thttps://t.co/a9MaSwSH4t
Una investigación del Washington Post reveló cómo ciertos conjuntos de datos usados para entrenar inteligencias artificiales, como es el caso del C4 de Google (también llamado Colossal Clean Crawled Corpus) reveló que usaba contenidos de más de 15 millones de sitios web. Se usó para entrenar a IAs como LlaMA de Meta, y en dicho conjunto había contenidos claramente problemáticos cuyo uso, en el menor de los casos, implicaba problemas de copyright.
A medida que los modelos de IA se van haciendo más grandes y necesitan mayores conjuntos de datos, posiblemente los servicios que otorgan librerías de información similares a The Internet Archive se vean afectados por el escalado en uso de estos sistemas.