Home / Tecnologia / Reddit bloquea Internet Archive para evitar el scraping de IA

Reddit bloquea Internet Archive para evitar el scraping de IA

Reddit ha comenzado a bloquear el acceso de Internet Archive (IA) para indexar hilos populares de la plataforma, tras detectar que algunas empresas de inteligencia artificial, que tienen prohibido realizar scraping de Reddit, estaban extrayendo datos del contenido archivado por IA.

Anteriormente, la Wayback Machine de IA archivaba de manera confiable las páginas, perfiles y comentarios de Reddit como parte de su misión de archivar Internet. Sin embargo, a partir de ahora, solo se archivarán capturas de pantalla de la página principal de Reddit. Esto significa que la utilidad del archivo se limitará a ser un instantáneo de publicaciones populares y titulares diarios, en lugar de ofrecer un respaldo de publicaciones eliminadas o una ventana a diversas subculturas de Reddit o actividades de usuarios específicos.

Reddit no ha confirmado qué empresas de IA estaban extrayendo datos de su contenido a través de la Wayback Machine. El portavoz de la compañía, Tim Rathschmidt, solo confirmó a Ars que Reddit ha tomado conocimiento de “instancias donde empresas de IA violan las políticas de la plataforma, incluidas las nuestras, y extraen datos de la Wayback Machine.”

Rathschmidt sugirió que IA podría tomar medidas para defenderse mejor contra el scraping de contenido archivado de Reddit, lo que podría llevar a Reddit a levantar las restricciones sobre el scraping, las cuales se intensificarán a partir de hoy.

Además, Reddit está aprovechando esta oportunidad para abordar otras preocupaciones de privacidad de larga data, señalando que las restricciones son apropiadas ya que la Wayback Machine archiva problemáticamente contenido que los usuarios han eliminado.

Hasta que puedan defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad del usuario respecto a contenido eliminado), “estamos limitando su acceso a los datos de Reddit para proteger a los usuarios”, dijo Rathschmidt.

Un análisis de comentarios en redes sociales sugiere que en el pasado, algunos usuarios de Reddit han utilizado la Wayback Machine para investigar comentarios o hilos eliminados. Estos usuarios han señalado que existen muchas otras herramientas para recuperar publicaciones eliminadas o investigar la actividad de un usuario, y algunos sugirieron que la Wayback Machine no era la plataforma más fácil de navegar para ese propósito.

Los usuarios de Reddit también han recurrido a recursos como IA en momentos en que los cambios en la plataforma de Reddit provocan eliminaciones de contenido. Más recientemente, en 2023, cuando cambios en la API pública de Reddit amenazaron con eliminar subreddits populares, los archivos intervinieron para preservar contenido antes de que se perdiera.

IA no ha indicado si está buscando soluciones para levantar las restricciones de Reddit y no respondió a la solicitud de Ars sobre cómo este cambio podría afectar la utilidad del archivo como recurso web abierto, dada la popularidad de Reddit.

El director de la Wayback Machine, Mark Graham, comentó a Ars que IA tiene “una relación de larga data con Reddit” y continúa teniendo “discusiones en curso sobre este asunto.”

Es probable que Reddit esté motivado financieramente para restringir a las empresas de IA de aprovechar los archivos de la Wayback Machine, con la esperanza de fomentar acuerdos de licencia más lucrativos, como los que Reddit firmó con OpenAI y Google. Los términos del acuerdo con OpenAI se mantuvieron en secreto, pero el acuerdo con Google fue reportado como valorado en 60 millones de dólares. En los próximos tres años, Reddit espera generar más de 200 millones de dólares a través de tales acuerdos de licencia.

Divulgación: Advance Publications, que posee Ars Technica, es el mayor accionista de Reddit.

Fuente original: ver aquí