OpenAI dice que está desarrollando una herramienta para que los creadores controlen mejor cómo se utiliza su contenido en el entrenamiento de la IA generativa.
La herramienta, llamada Media Manager, permitirá a los creadores y propietarios de contenidos identificar sus obras ante OpenAI y especificar cómo quieren que se incluyan o excluyan de la investigación y el entrenamiento de la IA.
Según OpenAI, el objetivo es que la herramienta esté operativa en 2025, mientras la empresa trabaja con "creadores, propietarios de contenidos y reguladores" para establecer un estándar, quizá a través del comité directivo del sector al que se ha unido recientemente.
"Esto requerirá una investigación puntera en aprendizaje automático para crear la primera herramienta de este tipo que nos ayude a identificar texto, imágenes, audio y vídeo protegidos por derechos de autor en múltiples fuentes y que refleje las preferencias de los creadores", escribió OpenAI en un blog. "Con el tiempo, planeamos introducir opciones y características adicionales".
Al parecer, Media Manager, sea cual sea la forma que adopte finalmente, es la respuesta de OpenAI a las crecientes críticas a su enfoque del desarrollo de la IA, que se basa en gran medida en el raspado de datos disponibles públicamente en la web. Recientemente, ocho importantes periódicos estadounidenses, entre ellos el Chicago Tribune, demandaron a OpenAI por infracción de la propiedad intelectual en relación con el uso de la IA generativa por parte de la empresa, acusando a OpenAI de robar artículos para entrenar modelos de IA generativa que luego comercializaba sin compensar -ni acreditar- a las publicaciones de origen.
Los modelos de IA generativa, como los de OpenAI, que pueden analizar y generar texto, imágenes, vídeos, etc., se entrenan con un enorme número de ejemplos que suelen proceder de sitios y conjuntos de datos públicos. OpenAI y otros proveedores de IA generativa argumentan que el uso justo, la doctrina legal que permite el uso de obras protegidas por derechos de autor para hacer una creación secundaria siempre que sea transformadora, ampara su práctica de extraer datos públicos y utilizarlos para el entrenamiento de modelos. Pero no todos están de acuerdo.
OpenAI, de hecho, argumentó recientemente que sería imposible crear modelos de IA útiles sin material protegido por derechos de autor.
Pero en un esfuerzo por aplacar a los críticos y defenderse de futuras demandas, OpenAI ha tomado medidas para llegar a un acuerdo con los creadores de contenidos.
El año pasado, OpenAI permitió a los artistas "excluirse" y eliminar sus obras de los conjuntos de datos que la empresa utiliza para entrenar sus modelos de generación de imágenes. La empresa también permite a los propietarios de sitios web indicar a través de la norma robots.txt, que da instrucciones sobre los sitios web a los robots de rastreo web, si el contenido de su sitio se puede raspar para entrenar modelos de IA. Además, OpenAI sigue firmando acuerdos de licencia con grandes propietarios de contenidos, como organizaciones de noticias, bibliotecas de archivos multimedia y sitios de preguntas y respuestas como Stack Overflow.
Sin embargo, algunos creadores de contenidos afirman que OpenAI no ha ido lo suficientemente lejos.
Los artistas han calificado de oneroso el proceso de exclusión de OpenAI para las imágenes, que exige enviar una copia individual de cada imagen que se desea eliminar junto con una descripción. Al parecer, OpenAI paga relativamente poco por licenciar contenidos. Y, como reconoce la propia OpenAI en la entrada de su blog del martes, las soluciones actuales de la empresa no abordan las situaciones en las que las obras de los creadores se citan, remezclan o vuelven a publicar en plataformas que no controlan.
Además de OpenAI, varios terceros están intentando crear herramientas universales de procedencia y exclusión para la IA generativa.
La startup Spawning AI, entre cuyos socios se encuentran Stability AI y Hugging Face, ofrece una aplicación que identifica y rastrea las direcciones IP de los bots para bloquear los intentos de scraping, así como una base de datos donde los artistas pueden registrar sus obras para no permitir el entrenamiento de los vendedores que decidan respetar las solicitudes. Steg.AI e Imatag ayudan a los creadores a establecer la propiedad de sus imágenes aplicando marcas de agua imperceptibles para el ojo humano. Y Nightshade, un proyecto de la Universidad de Chicago, "envenena" los datos de las imágenes para hacerlos inútiles o perjudiciales para el entrenamiento de modelos de IA.
Fuente: somoslibres