Vídeos de YouTube para entrenar IA: así transcriben el contenido de miles de creadores sin tener su permiso
Una organización sin ánimo de lucro ha creado un conjunto de datos usando subtítulos encontrados con los vídeos de muchos youtubers conocidos.
17 julio, 2024 14:11Los increíbles modelos de inteligencia artificial que se han visto en España y en todo el mundo deben ser entrenados. Este es sin duda uno de los puntos de discordia, ya que muchas voces se han quejado del poco respeto hacia el copyright que tienen estas empresas a la hora de usar contenido protegido para entrenar modelos. Se ha descubierto que Nvidia y otras firmas usan vídeos de YouTube para entrenar a sus IAs.
Así lo recoge una investigación conjunta entre Wired y Proof News. Ambos portales aseguran que Apple, Nvidia y Anthropic habrían usado miles de vídeos de YouTube con la intención de entrenar sus modelos. Todo ello sin que los creadores de contenido afectados supieran esto, y a pesar de las normas intrínsecas de YouTube, que prohíben el uso de estos materiales y su recopilación sin su expreso permiso.
En total, se habrían usado subtítulos de 173.536 vídeos de YouTube, provenientes de un conjunto total de 48.000 canales. Este conjunto de datos, apodado 'YouTube Subtitles'. contiene transcripciones de canales de divulgación y aprendizaje de todo tipo. Instituciones educativas como el MIT o superestrellas de YouTube como el famoso Marques Brownlee han sido afectados.
Vídeos de YouTube para entrenar IA
La investigación recoge declaraciones de algunos de los creadores de contenido que se han visto afectados por esta situación. Si bien es cierto que en ningún momento se incluyeron imágenes de estos vídeos, sí que se sacaron transcripciones completas de los subtítulos, además de traducciones a otros idiomas.
Todo comienza con EleutherAI, una compañía sin ánimo de lucro dedicada a la inteligencia artificial y responsable de crear YouTube Subtitles. En un artículo de investigación publicado por la propia compañía, EleutherAI cuenta que este conjunto perteneció a una compilación mucho mayor, llamada The Pile. Este no solo incluye material de YouTube, sino de la Wikipedia y otras fuentes, y tiene un volumen de 825 gibibytes (no confundir con gigabytes).
The Pile, que es totalmente accesible para los usuarios (que tengan suficiente capacidad de procesamiento para consultarlos), ha sido usada por empresas multimillonarias, entre las que se encuentran Apple, Nvidia, Salesforce, Bloomberg o Databricks. Apple, por ejemplo, usó este conjunto de datos para entrenar el modelo OpenELM lanzado en abril.
Varias de estas compañías han confirmado a Proof News que, efectivamente, han aprovechado The Pile para entrenar sus modelos. Anthropic explica que The Pile es un conjunto "muy pequeño de subtítulos de YouTube", y se defienden asegurando que "los términos de YouTube cubren el uso directo de su plataforma, que es distinto del uso del conjunto de datos de 'The Pile'".
Lo mismo ocurre con Salesforce, que defiende el uso de The Pile para entrenar sus modelos de IA "con fines académicos y de investigación", escudándose además en el hecho de que este conjunto de datos estaba disponible para todos, a nivel público. Eso sí, en su artículo de investigación, Salesforce reconoce la presencia de información perniciosa dentro de The Pile, como "prejuicios contra el género".
Lógicamente, el descontento es total; los creadores califican de "robo" o de "falta de respeto" el uso de su trabajo sin consentimiento alguno, e incluso denuncian que esto llevará a la explotación de los propios artistas en sí. Denuncian que se ha usado sin permiso su modo de vida, al cual dedican recursos y dinero para generar este contenido.
Entre los canales afectados nos encontramos con algunas de las personalidades más importantes de YouTube, como es MrBeast, uno de los youtubers más importantes de toda la plataforma. Le siguen PewDiePie, Marques Brownlee o JackSepticeye. Este último es un creador con 30,7 millones de suscriptores que se hizo viral hace meses por barajar su salida de la plataforma.
Cabe destacar que los distintos artículos de investigación publicados por Apple o Nvidia reconocen en sus documentos el uso directo de The Pile. En varios de ellos, como en el de Nvidia, reconocen que estos sets de datos pueden contener contenidos problemáticos, como "lenguaje tóxico y prejuicios sociales".