Nuestro sistema de propiedad intelectual se ideó para adecuarse con el tiempo a cambios de naturaleza aritmética que permitieran una adaptación de varias décadas. Pero, ¿y ahora? ¿Sigue siendo válida para esta sociedad una estructura jurídica sustentada en pilares de más de 150 años?
Analicemos la relación entre la propiedad intelectual y una de las áreas con más potencial de estas sucesivas revoluciones industriales: el machine learning como rama de la inteligencia artificial. No descubro un profundo secreto o una compleja tesis al afirmar que afrontamos un cambio exponencial y de carácter sistémico. Las revoluciones se solapan y suceden en periodos cortos de tiempo y por ello son estructurales. Mientras la invención de la imprenta o la revolución industrial cambiaron de forma radical el mundo en siglos o en varias generaciones, en apenas unos años parece que hemos superado la cuarta y que ya nos encontramos en plena quinta revolución industrial.
La experiencia de la que los seres humanos nos nutrimos para mejorar y adaptarnos al medio para las máquinas son análisis masivos de datos, lo que coloquialmente se llama el entrenamiento del algoritmo. El ejemplo clásico es la identificación de gatos en cualquier imagen digital. La máquina debe entrenar con multitud de imágenes de gatos para que la red neuronal sea capaz de ajustar sus parámetros y extraer las características que identifican la presencia de un gato en una imagen.
Igualmente, si los datos que utiliza son ingentes cantidades de textos, el campo del procesamiento de lenguaje natural es capaz de realizar traducciones, resúmenes y hasta de contestar preguntas sobre el texto. Lo revolucionario es que al sistema no se le programa con reglas preconcebidas para identificar un gato o elaborar una nota de prensa, sino que aprende a partir de un conjunto de datos y no requiere unas instrucciones específicas previas.
Esta capacidad de aprendizaje no es propiamente una tecnología nueva. De hecho, hace más de 80 años el escritor Isaac Asimov anunciaba un mundo lleno de androides y desarrolló las primeras normas éticas sobre robótica. El aumento de los datos disponibles gracias a la digitalización y el incremento de la potencia de computación, entre otros factores, han permitido a esta disciplina explosionar hasta extremos desconocidos.
Pues bien, para que ese entrenamiento replique un comportamiento humano, la cantidad, variedad y calidad de los datos es fundamental. Así, por ejemplo, si queremos desarrollar un modelo de machine learning capaz de elaborar textos, no conseguiremos resultados óptimos si utilizamos libros antiguos con expresiones y vocabulario propios de generaciones anteriores. Es necesario utilizar datos actuales de novelas, informes, periódicos, tweets, web… Estas técnicas analíticas de textos y datos en formato digital a fin de generar nuevos contenidos son lo que denominamos minería de textos o data mining.
Precisamente es en la utilización de los datos (bien sean fotografías, textos, música) cuando el entrenamiento del algoritmo podría colisionar con los derechos de propiedad intelectual. Generalmente las obras originales están protegidas durante los 70 años siguientes al fallecimiento del autor, periodo que se reduce a los 25 años en las meras fotografías. Y esta es una cuestión clave que puede determinar el desarrollo de las empresas tecnológicas europeas en los próximos años.
Siendo los datos los elementos fundamentales para el proceso de entrenamiento ¿es necesario recabar la autorización de los autores para entrenar mis sistemas de machine learning? ¿Únicamente puedo utilizar obras antiguas que ya no estén protegidas por derechos de propiedad intelectual?
Para responder existen dos formas de abordarla. La primera defiende que la minería de textos implica necesariamente el almacenamiento de los datos y ello implica una copia, cuya autorización corresponde en exclusiva al autor o titular de derechos de propiedad intelectual. Desde esta perspectiva, la máquina no se limita a leer sino que también reproduce las obras como paso previo a su análisis. El objetivo político legislativo de esta tesis es garantizar el derecho de propiedad de los creadores y que, en su caso, se articulen medios de compensación por los desarrolladores de sistemas de machine learning.
La segunda promueve el desarrollo de la tecnología de inteligencia artificial y entiende que el entrenamiento de los algoritmos, es decir el análisis de billones de textos, a fin de generar nuevos contenidos no es una explotación de derechos de propiedad intelectual. Uno de los argumentos principales de esta segunda tesis es que igual que una persona puede leer un texto sin necesidad de pedir autorización al titular de derechos, tampoco es exigible a la máquina esa autorización.
El entrenamiento de la máquina -mantienen sus defensores- no deja de ser una lectura de textos y datos, independientemente de la celeridad e ingente cantidad de contenido analizado. El objetivo político legislativo de esta tesis es que los derechos de propiedad intelectual no supongan una barrera al potencial tecnológico de la inteligencia artificial.
Consciente de que está en juego la carrera mundial hacia el liderazgo de la inteligencia artificial, la función del legislador es la búsqueda de la virtud en el término medio. No obstante existen diferencias notables entre el equilibrio alcanzado en la Unión Europea y en Estados Unidos o países como Japón.
La respuesta dada por la Unión Europea está en la Directiva 2019/790 (recientemente transpuesta al ordenamiento jurídico español) y busca ese equilibrio otorgando mayor importancia al derecho de propiedad sobre las creaciones originales, mientras que Estados Unidos confía en la tradicional doctrina del “fair use” o uso justo aplicada por sus tribunales.
Nuestro sistema continental parte, en primer lugar, de que el derecho a leer no incluye el derecho a minar y por este motivo, a falta de una expresa limitación o excepción a los derechos de propiedad intelectual en la propia ley, la minería de textos y datos requiere la autorización previa de los escritores y editoriales de las obras.
La titularidad de estos derechos corresponderá a multitud de personas y editoriales por lo que no es descartable que alguna entidad de gestión, como la SGAE u otras, termine ofreciendo esas licencias de uso y posteriormente reparta equitativamente dichos ingresos entre los escritores, fotógrafos, desarrolladores de bases de datos.
Por el contrario, el sistema anglosajón de propiedad intelectual o copyright no busca ese equilibrio estableciendo un principio general por el que se restringe la minería de datos sin autorización. La doctrina del fair use ha sido una herramienta fundamental para la convivencia entre los titulares de derechos y las tecnologías que han ido desarrollándose en los últimos 50 años (desde la aparición de los primeros reproductores caseros de vídeo y música, el nacimiento de internet y, por supuesto, también con el desarrollo de sistemas de machine learnig).
La aplicación del fair use la realizan los Tribunales y opera como una válvula de autorregulación de los derechos exclusivos de propiedad intelectual de manera que ante nuevos retos tecnológicos no es necesario que exista una regulación expresa sino que es habitual que dicten sentencia en función de si ese uso particular de obras artísticas, literarias o científicas se considera justo.
De casos como Sega versus Accolade o el celebérrimo Authors Guild versus Google Inc. puede sostenerse que en Estados Unidos existe una menor protección de la propiedad de los creadores de contenidos y un mayor estímulo para el desarrollo de sistemas de inteligencia artificial. Porque, a pesar de que los libros, ficheros y obras en general se reproduzcan y almacenen durante el entrenamiento del sistema, la solución e información que genera ese algoritmo no es una copia de los datos minados, sino que es una obra nueva.
Es decir, no es, conforme al más laxo sistema anglosajón, una reproducción de los textos, música, vídeos que ha utilizado para aprender, sino a lo sumo una obra nueva que transforma todas las anteriores. Esa transformación puede ser suficiente para que no sea necesaria una autorización expresa de la editorial o autor de los textos analizados.
En definitiva, el sistema continental de protección intelectual es más garantista con la propiedad de los creadores, pero opera como un lastre para que los países europeos puedan estar a la vanguardia mundial de esta nueva revolución industrial en la que estamos imbuidos. Por este motivo no es de extrañar que entre los grandes líderes globales de la inteligencia artificial no sea fácil encontrar una compañía radicada en Europa.