Skip to content

OpenAI Se Niega a Explicar Borrado de Datos de Libros Pirata; Afronta Consecuenc

diciembre 2, 2025

OpenAI podría verse pronto obligado a explicar por qué eliminó dos conjuntos de datos controvertidos compuestos por libros pirateados, y las consecuencias podrían ser significativas.

En el centro de una demanda colectiva de autores que alegan que ChatGPT fue entrenado ilegalmente con sus obras, la decisión de OpenAI de eliminar los conjuntos de datos podría terminar siendo un factor decisivo que dé la victoria a los autores.

Es indiscutible que OpenAI eliminó los conjuntos de datos, conocidos como “Books 1” y “Books 2”, antes del lanzamiento de ChatGPT en 2022. Creados por exempleados de OpenAI en 2021, los conjuntos de datos se construyeron rastreando la web abierta y tomando la mayor parte de sus datos de una biblioteca en la sombra llamada Library Genesis (LibGen).

OpenAI Se Niega a Explicar Borrado de Datos de Libros Pirata; Afronta Consecuenc
*Imagen referencial generada por IA.

Según OpenAI, los conjuntos de datos dejaron de usarse ese mismo año, lo que provocó una decisión interna de eliminarlos.

Pero los autores sospechan que hay más en la historia. Señalaron que OpenAI pareció dar marcha atrás al retractarse de su afirmación de que el “no uso” de los conjuntos de datos era una razón para la eliminación, y luego afirmó que todas las razones para la eliminación, incluido el “no uso”, deberían estar protegidas por el privilegio abogado-cliente.

Para los autores, parecía que OpenAI estaba retrocediendo rápidamente después de que el tribunal concediera las solicitudes de descubrimiento de los autores para revisar los mensajes internos de OpenAI sobre el “no uso” de la empresa.

De hecho, la reversión de OpenAI solo hizo que los autores estuvieran más ansiosos por ver cómo OpenAI discutió el “no uso”, y ahora pueden llegar a descubrir todas las razones por las que OpenAI eliminó los conjuntos de datos.

La semana pasada, la jueza de distrito de EE. UU. Ona Wang ordenó a OpenAI que compartiera todas las comunicaciones con los abogados internos sobre la eliminación de los conjuntos de datos, así como “todas las referencias internas a LibGen que OpenAI ha redactado u ocultado sobre la base del privilegio abogado-cliente”.

Según Wang, OpenAI cometió un error al argumentar que el “no uso” no era una “razón” para eliminar los conjuntos de datos, al tiempo que afirmaba que también debería considerarse una “razón” considerada privilegiada.

De cualquier manera, la jueza dictaminó que OpenAI no podía bloquear el descubrimiento sobre el “no uso” simplemente eliminando algunas palabras de las presentaciones anteriores que habían estado en el expediente durante más de un año.

“OpenAI ha ido y venido sobre si el ‘no uso’ como una ‘razón’ para la eliminación de Books1 y Books2 es privilegiado en absoluto”, escribió Wang. “OpenAI no puede declarar una ‘razón’ (lo que implica que no es privilegiada) y luego afirmar que la ‘razón’ es privilegiada para evitar el descubrimiento”.

Además, la afirmación de OpenAI de que todas las razones para eliminar los conjuntos de datos son privilegiadas “pone a prueba la credibilidad”, concluyó, ordenando a OpenAI que produzca una amplia gama de mensajes internos potencialmente reveladores antes del 8 de diciembre. OpenAI también debe poner a sus abogados internos a disposición para una declaración antes del 19 de diciembre.

OpenAI ha argumentado que nunca dio marcha atrás ni se retractó de nada. Simplemente utilizó una fraseología vaga que condujo a la confusión sobre si alguna de las razones para eliminar los conjuntos de datos se consideraba no privilegiada. Pero Wang no se tragó eso, y concluyó que “incluso si una ‘razón’ como el ‘no uso’ pudiera ser privilegiada, OpenAI ha renunciado al privilegio al hacer un objetivo móvil de sus afirmaciones de privilegio”.

Al ser preguntado por un comentario, OpenAI dijo que “no estamos de acuerdo con el fallo y tenemos la intención de apelar”.

El “vaivén” de OpenAI podría costarle la victoria

Hasta ahora, OpenAI ha evitado revelar su justificación, alegando que todas las razones que tenía para eliminar los conjuntos de datos son privilegiadas. Los abogados internos opinaron sobre la decisión de eliminar y incluso fueron copiados en un canal de Slack inicialmente llamado “excise-libgen”.

Pero Wang revisó esos mensajes de Slack y descubrió que “la gran mayoría de estas comunicaciones no eran privilegiadas porque estaban ‘claramente desprovistas de cualquier solicitud de asesoramiento legal y el abogado no opinó ni una sola vez'”.

En un lote de mensajes particularmente no privilegiados, un abogado de OpenAI, Jason Kwon, solo opinó una vez, señaló la jueza, para recomendar que el nombre del canal se cambiara a “project-clear”. Wang le recordó a OpenAI que “la totalidad del canal de Slack y todos los mensajes contenidos en él no son privilegiados simplemente porque fue creado bajo la dirección de un abogado y/o el hecho de que un abogado fue copiado en las comunicaciones”.

Los autores creen que exponer la justificación de OpenAI puede ayudar a probar que el fabricante de ChatGPT infringió deliberadamente los derechos de autor al piratear los datos de los libros. Como explicó Wang, la retractación de OpenAI corría el riesgo de poner en tela de juicio la “buena fe y el estado de ánimo” de

Fuente original: ver aquí