kirwi


Publicaciones de Paya Frank en Amazon

freelancer

PF

La Nostalgia del Pasado

LG

Buscador

1

12 de mayo de 2025

IA y derechos de autor: El entrenamiento de la IA de propósito general



                    



European Parliamentary Research Service. 2025. AI and Copyright: The Training of General-Purpose AI. Brussels: European Parliament. https://www.europarl.europa.eu/RegData/etudes/ATAG/2025/769585/EPRS_ATA(2025)769585_EN.pdf

El informe analiza los desafíos legales que plantea el uso de obras protegidas por derechos de autor en el entrenamiento de modelos de inteligencia artificial de propósito general (GPAI, por sus siglas en inglés), como los de OpenAI o DeepSeek. A pesar de que existen normas como la Directiva de Derechos de Autor de la UE (2019/790) y la Ley de Inteligencia Artificial (IA) europea, persisten importantes limitaciones y ambigüedades legales que preocupan tanto a los investigadores como a los titulares de derechos.



IA y derechos de autor: la formación de la inteligencia artificial de propósito general

Para entrenar sus modelos, los proveedores de inteligencia artificial de propósito general (IAPG) necesitan grandes conjuntos de datos, que pueden incluir materiales protegidos por derechos de autor. A pesar de la Directiva de la UE 2019/790 sobre derechos de autor y la Ley de Inteligencia Artificial (IA) de la UE, los investigadores han identificado limitaciones legales e incertidumbre en el uso de materiales con derechos de autor para el entrenamiento de IAPG.

Entrenamiento de IAPG

Los modelos de IA capaces de realizar una amplia gama de tareas distintas, como los modelos GPT de OpenAI, se conocen como inteligencia artificial de propósito general (IAPG) y se entrenan con una gran cantidad de datos. La Ley de IA europea define legalmente la IAPG utilizando factores como sus capacidades, características y número de usuarios finales. Esta definición abarca lo que también se conoce como modelos generativos o modelos fundacionales. Los modelos más recientes de IAPG son multimodales, lo que significa que pueden trabajar con diferentes tipos de contenido. Además, las IAPG más avanzadas se denominan "modelos de razonamiento", ya que son capaces de "razonar" paso a paso. Los modelos o3-mini de OpenAI y R1 de DeepSeek son ejemplos de modelos de razonamiento lanzados recientemente.

Los modelos IAPG se basan en técnicas de aprendizaje profundo, que implican el entrenamiento de los parámetros internos del modelo utilizando datos. La construcción de conjuntos de datos para el entrenamiento comienza con la fase de recopilación. En la práctica, esto suele depender de materiales disponibles gratuitamente en línea. El modelo GPT-4o de OpenAI se entrenó utilizando datos, incluidos los de acceso público. El modelo 7b de Mistral también se entrenó con datos extraídos de la web. Los proveedores, en general, han mantenido la confidencialidad sobre los datos exactos utilizados para entrenar sus modelos, considerándolos una parte clave de su ventaja competitiva. Por otro lado, los titulares de derechos temen perder el control sobre su contenido. Existen diversas demandas pendientes fuera de la UE, señaladas por los investigadores, que afirman que los datos utilizados en el entrenamiento de IAPG contienen materiales con derechos de autor.

La legislación de derechos de autor en la UE y la Ley de IA

Para encontrar datos públicos en la web con los que entrenar IAPG, los proveedores utilizan rastreadores web (web crawlers): programas que navegan automáticamente por la web para realizar un conjunto definido de acciones. Los rastreadores de OpenAI se conocen como GPTBot. Los rastreadores se han usado durante años por empresas como Google, cuyos Googlebots rastrean la web para indexar contenido en su buscador. Como señalan los investigadores, el surgimiento de la web "creó desafíos y oportunidades sin precedentes para los titulares de derechos de autor", aunque el derecho internacional de autor se ha modificado en cierta medida para adaptarse a la era digital.

La legislación de derechos de autor otorga derechos económicos y morales exclusivos a los autores, como el derecho a reproducir, distribuir, comunicar al público y poner a disposición del público sus obras. Con la Directiva sobre la Sociedad de la Información (Directiva 2001/29), la UE creó una excepción para los actos temporales de reproducción como parte de un proceso tecnológico (artículo 5.1). La Directiva sobre derechos de autor de la UE (Directiva 2019/790) añadió dos nuevas excepciones para fines de “minería de textos y datos” (TDM, por sus siglas en inglés) (artículos 3 y 4). TDM se define como “cualquier técnica analítica automatizada destinada a analizar textos y datos en formato digital para generar información que incluye, entre otras cosas, patrones, tendencias y correlaciones”. Las excepciones permiten, bajo condiciones específicas, la reproducción y extracción de obras protegidas con fines de TDM. Realizar tales actos, de otro modo, constituiría una infracción de ciertos derechos bajo la legislación sobre derechos de autor y bases de datos.

La Ley de IA europea contiene dos disposiciones relacionadas con los derechos de autor (artículo 53.1(c) y (d)). La primera exige a los proveedores de IAPG que cumplan con la legislación sobre derechos de autor y con la excepción de exclusión voluntaria de la Directiva de derechos de autor, que autoriza la TDM siempre que los titulares de derechos no hayan expresado su negativa. Afecta a cualquier proveedor que comercialice una IAPG en el mercado de la UE, “independientemente de la jurisdicción en la que tengan lugar los actos relevantes en materia de derechos de autor que sustentan el entrenamiento de esos modelos de IA de propósito general” (considerando 106). La segunda disposición exige que los proveedores de IAPG hagan público un resumen suficientemente detallado explicando el contenido utilizado para el entrenamiento. Estos requisitos se aplican a los proveedores de IAPG con o sin riesgos sistémicos. Para facilitar el cumplimiento de la normativa, la Comisión tiene previsto publicar un Código de Buenas Prácticas para la IAPG en mayo de 2025.

Problema del uso de materiales con derechos de autor en el entrenamiento de IAPG

Según los investigadores, la legislación de la UE aún no aborda completamente los problemas relacionados con los modelos de IA y el derecho de propiedad intelectual. El problema principal es la posible presencia de materiales protegidos por derechos de autor en los conjuntos de datos utilizados para entrenar IAPG. Por ello, los investigadores han intentado determinar en qué medida las excepciones al derecho de autor permiten la reproducción de obras con fines de entrenamiento de IAPG. Consideran que las excepciones para TDM de la Directiva actual sobre derechos de autor no son lo suficientemente claras, por lo que las limitaciones legales y la incertidumbre siguen siendo problemáticas.

Incertidumbre y limitaciones del marco legal

Las dos excepciones de TDM solo cubren ciertos derechos protegidos por la ley de propiedad intelectual. Sin embargo, podrían necesitarse excepciones adicionales para otros derechos, como el de comunicación al público. De hecho, los investigadores argumentan que el derecho de comunicación al público podría activarse al permitir el acceso público a modelos de IAPG que generen contenidos que incluyan partes sustanciales de obras protegidas.

En cuanto a las dos excepciones en sí, los investigadores han identificado incertidumbres legales en su aplicación al entrenamiento de IAPG con materiales protegidos. La primera excepción, que autoriza la reproducción y extracción de obras, permite a organizaciones de investigación e instituciones de patrimonio cultural realizar TDM con fines de investigación científica y bajo acceso legal (artículo 3 de la Directiva). Hay dos problemas para invocar esta excepción en el entrenamiento de IAPG. Primero, los investigadores han expresado dudas sobre su aplicabilidad técnica. De hecho, los titulares de derechos pueden aplicar medidas tecnológicas de protección (TPM), como interfaces de programación restrictivas, para controlar la TDM, lo que impediría a los investigadores ejercer plenamente su derecho. Segundo, la ambigüedad del requisito de “acceso legal” complica aún más la aplicación práctica de la excepción. En este contexto, los interesados podrían optar por acuerdos de licencia en lugar de confiar en la excepción. Como han señalado varios agentes, algunos Estados miembros han ampliado el marco legal para la investigación científica en su transposición de la Directiva, incluyendo también el derecho de comunicación al público, además de la reproducción y extracción.

La segunda excepción permite la TDM siempre que “no haya sido expresamente reservada por sus titulares de derechos de forma adecuada, como mediante medios legibles por máquina…” (artículo 4 de la Directiva). Esto se conoce como la excepción de exclusión voluntaria (“opt-out”). Los interesados han debatido la definición de “legible por máquina” y la duración durante la cual pueden conservarse las reproducciones de obras. En cuanto a “legible por máquina”, los proveedores de IAPG apoyan la adopción de un archivo estandarizado de fácil acceso, como robots.txt. Un tribunal alemán dictaminó recientemente que incluir el opt-out en lenguaje natural (por ejemplo, en los términos de uso) cuenta como exclusión legible por máquina. Los expertos señalaron que esta decisión podría ser apelada “dado los problemas jurídicos fundamentales involucrados y la ambigüedad de la ley…”. Los investigadores añadieron que el mecanismo de opt-out probablemente falle cuando los titulares de derechos no tengan derechos administrativos sobre la página web que muestra sus obras, ya que no pueden añadir ellos mismos la exclusión. En cuanto a la duración durante la que se pueden conservar las reproducciones, la excepción lo permite mientras sea necesario para la TDM. Sin embargo, los proveedores de IAPG pueden necesitarlas para procesos posteriores como la evaluación de modelos.

Posibles próximos pasos

Varios Estados miembros crearon un Grupo de Trabajo sobre Infraestructura de Derechos de Autor en 2023 para ayudar a la Comisión a encontrar soluciones. Mientras tanto, el Consejo de la UE publicó un resumen en diciembre de 2024 con las opiniones de los Estados miembros sobre el asunto. Varios de ellos afirman que “los usos de contenidos protegidos por derechos de autor para el entrenamiento de IA van más allá del alcance de la excepción de TDM”. La mayoría considera que no es necesario introducir un nuevo instrumento legislativo en esta etapa, y prioriza la implementación y el seguimiento del marco legal existente.

La comisaria Henna Virkkunen sugirió en octubre de 2024 que la Comisión debería investigar si mecanismos de licenciamiento específicos facilitarían la firma de licencias entre las industrias creativas y las empresas de IA. A diferencia de los requisitos de la Directiva de derechos de autor para ciertos usos de contenidos protegidos por servicios en línea, la Ley de IA no menciona los acuerdos de licencia en el contexto del entrenamiento de IAPG.

Si bien el Código de Buenas Prácticas para la IAPG no tendrá el mandato de cambiar el marco jurídico de los derechos de autor de la UE, esta guía podría ser un paso intermedio antes de la revisión de la Directiva de derechos de autor, prevista legalmente para junio de 2026. Una versión revisada de la Directiva podría abordar las limitaciones e incertidumbres identificadas en el entrenamiento de IAPG con obras protegidas por derechos de autor.

No hay comentarios: