Una reciente investigación acusa a empresas como Apple, Nvidia y Anthropic de haber usado miles de vídeos de YouTube para entrenar sus modelos de lenguaje natural. Los subtítulos de los vídeos de grandes youtubers como MKBHD, Mr. Beast y otros han servido para entrenar a la IA sin el permiso de estos creadores de contenido. Como repuesta a esta nueva polémica, Apple asegura que su modelo de IA entrenado de esta manera no se usará en las funciones de Apple Intelligence que llegará a España en los próximos meses.
El origen de los datos con los que se entrena la IA es uno de los principales puntos de discordia en esta nueva industria, acusada con frecuencia de no respetar el copyright de los contenidos que encuentra en la red. Esta vez le ha tocado a la plataforma YouTube, el informe de Wired y Proof News, apunta a los subtítulos de 173.536 vídeos de YouTube, provenientes de un conjunto total de 48.000 canales.
El gigante de la manzana mordida habría aprovechado el conjunto de datos apodado 'YouTube Subtitles', que contiene transcripciones de canales de divulgación y aprendizaje de todo tipo, para entrenar sus modelos OpenELM de código abierto, presentados en abril. Según Apple, OpenELM se creó únicamente con fines de investigación, no para utilizarlo en ninguna de sus funciones de Apple Intelligence.
La empresa de Tim Cook ha confirmado a 9to5Mac que su intención era únicamente contribuir a la comunidad de investigación y promover el desarrollo de modelos de lenguaje de código abierto de gran tamaño. El modelo se publicó en código abierto y está ampliamente disponible para cualquier desarrollador o investigador de IA. Una metodología que otras empresas como OpenAI han dejado de realizar desde el lanzamiento de ChatGPT.
El OpenELM no nutrirá a Apple Intelligence, las nuevas funciones de IA que Apple desplegará en algunos dispositivos como iPhone este otoño. Por lo tanto, el conjunto de datos de "Subtítulos de YouTube" no se utilizarán en estas funciones con las que la empresa tecnológica sí pretende lucrarse vendiendo los dispositivos y, puede que ofreciendo servicios premium de este nuevo software.
Con anterioridad, Apple ha dejado claro que los modelos de Apple Intelligence se entrenaron "con datos autorizados, incluidos datos seleccionados para mejorar funciones específicas, así como datos disponibles públicamente recopilados por nuestro rastreador web". Al margen de estas opciones, la empresa ha llegado a un acuerdo con OpenAI para ofrecer ChatGPT en sus dispositivos; la empresa de Sam Altman también ha sido criticada por la procedencia de los datos con los que ha entrenado su IA.
Por último, Apple ha afirmado ante el medio 9to5Mac que no tiene planes de construir ninguna nueva versión del modelo OpenELM.