A fines de marzo un grupo de expertos expresó su preocupación por los avances acelerados de la inteligencia artificial generativa y pidió una pausa de 6 meses para elaborar protocolos de seguridad. Mientras el tiempo se agota, miles de autores reconocidos observan de manos atadas, cómo piratean descaradamente sus obras y las utilizan para entrenar herramientas de IA.
Zadie Smith, Stephen King, Rachel Cusk y Elena Ferrante se encuentran entre los miles de autores cuyas obras pirateadas se han utilizado para entrenar herramientas de IA. Una investigación de The Atlantic señala que para producir respuestas a las preguntas humanas, sistemas como ChatGPT procesan enormes cantidades de literatura. Pero pocas personas fuera de empresas como Meta y OpenAI conocen el alcance total de los textos en los que se han entrenado estos programas.
Algunos textos de entrenamiento proceden de Wikipedia y otros escritos en línea. Pero la IA generativa requiere una entrada de mayor calidad que la que suele encontrarse en Internet. Es decir, requiere la que se encuentra en los libros, precisa la publicación estadounidense.
En una demanda presentada en California el mes pasado, los escritores Sarah Silverman, Richard Kadrey y Christopher Golden alegan que Meta violó las leyes de derechos de autor al utilizar sus libros para entrenar LLaMA, un gran modelo lingüístico similar al GPT-4 de OpenAI. Un algoritmo que puede generar texto imitando los patrones de palabras que encuentra en textos de muestra.
Pero ni la propia demanda ni los comentarios que la rodean han ofrecido una mirada detallada. Hasta ahora no se sabía con certeza si LLaMA se había entrenado con los libros de Silverman, Kadrey o Golden, o con cualquier otro. De hecho, así fue.
Autores ven cómo piratean sus obras para entrenar IA
“Recientemente he analizado un conjunto de datos utilizados por Meta para entrenar LLaMA”, afirma Alex Reisner, autor del artículo de The Atlantic. “Su contenido justifica sobradamente un aspecto fundamental de las alegaciones de los autores: se están utilizando libros pirateados como entradas para programas informáticos de IA. Que están cambiando nuestra forma de leer, aprender y comunicarnos. El futuro prometido por la IA se escribe con palabras robadas”.
Más de 170.000 libros, la mayoría publicados en los últimos 20 años, se encuentran en los datos de formación de LLaMA. Los títulos contenidos en Books3 son aproximadamente un tercio de ficción y dos tercios de no ficción, y la mayoría se publicaron en las últimas dos décadas. Junto con los escritos de Smith, King, Cusk y Ferrante, las obras protegidas por derechos de autor en el conjunto de datos incluyen 33 libros de Margaret Atwood, nueve de Haruki Murakami, nueve de Bell Hooks, siete de Jonathan Franzen, cinco de Jennifer Egan y cinco de David Grann.
También se incluyen libros de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit y Jon Krakauer. Igualmente, 102 novelas pulp del fundador de Scientology, L Ron Hubbard, y 90 libros del pastor John MacArthur.
Estos libros forman parte de un conjunto de datos llamado “Books3” y su uso no se ha limitado a LLaMA. Books3 también se utilizó para entrenar BloombergGPT de Bloomberg y GPT-J de EleutherAI (un popular modelo de código abierto). Probablemente otros programas de IA generativa ahora integrados en sitios web de Internet.
Miles de obras de grandes editoriales
Un portavoz de Meta se negó a comentar sobre el uso de Books3 por parte de la empresa. Mientras un portavoz de Bloomberg confirmó por e-mail que Books3 se utilizó para entrenar el modelo inicial de BloombergGPT. Y agregó: «No incluiremos el conjunto de datos de Books3 entre las fuentes utilizadas para entrenar versiones futuras de BloombergGPT».
Entretanto, Stella Biderman, directora ejecutiva de EleutherAI, no cuestionó que la compañía utilizó Books3 en los datos de entrenamiento de GPT-J.
Los títulos abarcan editoriales grandes y pequeñas, incluidos más de 30.000 publicados por Penguin Random House, 14.000 por HarperCollins, 7.000 por Macmillan, 1.800 por Oxford University Press y 600 por Verso.
Esto se produce después de que una demanda presentada el mes pasado por tres escritores -Sarah Silverman, Richard Kadrey y Christopher Golden- alegara que sus obras protegidas por derechos de autor «fueron copiadas. E ingeridas como parte de la formación» LLaMA de Meta.
El análisis reveló que los escritos de los tres demandantes forman parte efectivamente de Books3.
OpenAI, la empresa que está detrás del chatbot de IA ChatGPT, también ha sido acusada de entrenar su modelo con obras protegidas por derechos de autor. Las pistas sobre las fuentes de los datos de entrenamiento de OpenAI se encuentran en un documento publicado por la empresa en 2020 que menciona dos «corpus de libros basados en Internet». Uno de los cuales se llama Books2 y se estima que contiene cerca de 300.000 títulos.
Una demanda de junio afirma que los únicos sitios web que ofrecen esa cantidad de material son «bibliotecas en la sombra» como Library Genesis (LibGen) y Z-Library, a través de las cuales se pueden conseguir libros a granel mediante sistemas torrent.
Tendencia inquietante
Shawn Presser es el desarrollador independiente de IA que creó originalmente Books3. Dijo que si bien simpatiza con las preocupaciones de los autores, creó la base de datos para que cualquiera pudiera desarrollar herramientas de IA generativa. Le preocupa también los riesgos de que las grandes empresas tengan el control de la tecnología.
El control es más esencial que nunca. Ahora que la propiedad intelectual es digital y fluye de persona a persona como bytes a través de ondas de radio. Ha existido una cultura de piratería desde los primeros días de Internet. Y, en cierto sentido, los desarrolladores de inteligencia artificial están haciendo algo que parece natural. Resulta incómodo que la tecnología emblemática de hoy esté impulsada por el robo masivo.
Sin embargo, hasta ahora la cultura de la piratería ha facilitado principalmente el uso personal por parte de personas individuales. La explotación de libros pirateados con fines de lucro, con el objetivo de reemplazar a los escritores cuya obra fue robada, es una tendencia diferente e inquietante.
Como un helado suave en espiral
La escritora Margaret Atwood, forma parte de los autores cuyas obras han sido piratead para para entrenar herramientas de IA. Ella pidió un espacio a The Atlantic para dar su opinión sobre todo esto tan complejo e intimidante. Entonces escribió:
“¿Recuerdas Las esposas de Stepford? Tal vez no. En esa película de terror de 1975, las identidades de las esposas humanas de Stepford, Connecticut, son copiadas y transferidas a réplicas robóticas de ellas mismas. Sin cualquier contradicción que sus maridos encuentren irritante. Luego, las esposas robot asesinan a las esposas reales y las reemplazan. Mejor sexo y mejor limpieza para los maridos. Muerte por la singularidad, la creatividad y, de hecho, la humanidad de las esposas”.
Las empresas que desarrollan IA generativa parecen tener algo así en mente para mí, al menos en mi calidad de autor, advierte. “(Supongo que el sexo y las tareas del hogar pueden ser realizados por otros funcionarios.) Aparentemente, 33 de mis libros han sido utilizados como material de capacitación para sus programas informáticos de redacción de palabras. Una vez completamente entrenado, al robot se le puede dar una orden: ‘Escribe una novela de Margaret Atwood’, y la cosa sorberá 50.000 palabras. Como un helado suave que sale en espiral de su dispensador, que será indistinguible de algo que yo pueda triturar. (Pero menos los errores tipográficos.)”.
Entonces, escribió con ironía, “puedo prescindir de mí mismo (asesinarlo por mi réplica, por así decirlo) porque, para citar un dicho vulgar de mi juventud, ¿quién necesita la vaca cuando hay leche gratis?”.