Reddit Demanda a Perplexity por Extraer Datos de Resultados de Búsqueda de Googl |

Reddit ha presentado una demanda contra el motor de búsqueda de inteligencia artificial Perplexity, acusándolo de conspirar con otras compañías para extraer ilegalmente contenido de Reddit desde los resultados de búsqueda de Google. La demanda, presentada el miércoles, alega que Perplexity elude las medidas anti-scraping implementadas por Google y Reddit, las cuales requieren inversiones significativas.

Según la demanda, Perplexity se aprovecha del contenido de Reddit y Google, promocionándose como “el primer motor de respuestas del mundo” sin ofrecer ninguna innovación real. Reddit argumenta que Perplexity simplemente utiliza el modelo de lenguaje de otra compañía para analizar los resultados de búsqueda de Google y responder a las preguntas de los usuarios.

“Su motor de respuestas simplemente usa el modelo de lenguaje grande de otra compañía para analizar una gran cantidad de resultados de búsqueda de Google para ver si puede responder la pregunta de un usuario basándose en esos resultados”, dice la demanda. “Pero Perplexity solo puede ejecutar su ‘motor de respuestas’ accediendo y extrayendo indebidamente contenido de Reddit que aparece en los resultados de búsqueda de Google del propio motor de búsqueda de Google”.

*Imagen referencial generada por IA.

Reddit compara a las compañías involucradas en la supuesta conspiración con “ladrones de bancos”, afirmando haber atrapado a Perplexity “con las manos en la masa” robando contenido al que su “motor de respuestas” no debería tener acceso.

Para probar su acusación, Reddit publicó contenido que solo podía encontrarse en las páginas de resultados del motor de búsqueda de Google (SERPs). “A las pocas horas, las consultas al ‘motor de respuestas’ de Perplexity produjeron el contenido de esa publicación de prueba”, señala la demanda.

“La única forma en que Perplexity podría haber obtenido ese contenido de Reddit y luego usarlo en su ‘motor de respuestas’ es si él y/o sus codemandados extrajeron las SERPs de Google para ese contenido de Reddit y Perplexity luego incorporó rápidamente esos datos en su motor de respuestas”, afirma la demanda de Reddit.

Respuesta de Perplexity

En una publicación en Reddit, Perplexity negó haber actuado mal, describiendo su motor de respuestas como un sistema que resume las discusiones de Reddit y cita los hilos de Reddit en las respuestas, como lo haría cualquier persona que comparta enlaces o publicaciones en Reddit. Perplexity sugiere que Reddit está atacando la Internet abierta al intentar extorsionar tarifas de licencia por el contenido de Reddit, a pesar de saber que Perplexity no entrena modelos fundacionales. Perplexity alega que el objetivo final de Reddit es utilizar la demanda de Perplexity como una “demostración de fuerza en las negociaciones de datos de entrenamiento de Reddit con Google y OpenAI”.

“No seremos extorsionados y no ayudaremos a Reddit a extorsionar a Google, incluso si son nuestro (enorme) competidor”, escribió Perplexity. “Perplexity jugará limpio, pero no cederemos. Y no permitiremos que las empresas más grandes nos utilicen en juegos de fachada”.

Reddit anticipó la defensa de Perplexity de la “Internet abierta”, señalando en su denuncia que “el archivo Robots Exclusion Protocol (‘robots.txt’) actual de Reddit dice: ‘Reddit cree en una Internet abierta, pero no en el uso indebido del contenido público'”.

Medidas Anti-Scraping y la Subpoena a Google

Para bloquear el scraping, Reddit utiliza varias medidas, como “límites de identificación de usuarios registrados, límites de velocidad de IP, protección de bots captcha y herramientas de detección de anomalías”, según la demanda.

De manera similar, Google confía en “sistemas anti-scraping y equipos dedicados a prevenir el acceso no autorizado a sus productos y servicios”, dijo Reddit, señalando que Google prohíbe el “acceso automatizado no autorizado” a sus SERPs.

Para respaldar sus afirmaciones, Reddit citó a Google para obtener más información sobre cómo el gigante de las búsquedas bloquea a los scrapers de IA para que no accedan al contenido en las SERPs. Google confirmó que confía en “un sistema de control de acceso tecnológico llamado ‘SearchGuard’, que está diseñado para evitar que los sistemas automatizados accedan y obtengan resultados de búsqueda e información indexada al por mayor, al tiempo que permite a los usuarios individuales, es decir, a los humanos, acceder a los resultados de búsqueda de Google, incluidos los resultados que presentan datos de Reddit”.

“SearchGuard evita el acceso no autorizado a los datos de búsqueda de Google al imponer un desafío de barrera que no puede ser resuelto en el curso ordinario por sistemas automatizados a menos que tomen medidas afirmativas para eludir el sistema SearchGuard”, explicó la denuncia de Reddit.

Reddit alega que eludir estos sistemas anti-scraping viola la Ley de Derechos de Autor del Milenio Digital, así como las leyes contra el comercio desleal y el enriquecimiento injusto. Aparentemente, SearchGuard de Google puede ser actualmente el más fácil de eludir para los presuntos conspiradores que supuestamente recurrieron al saqueo de las SERPs de Google después de darse cuenta de que no podían acceder al contenido de Reddit directamente en la plataforma.

Empresas Acusadas de Conspiración

Reddit acusó a tres compañías de conspirar con Perplexity: “un scraper de datos lituano” llamado Oxylabs UAB, “una antigua botnet rusa” conocida como AWMProxy y SerpApi, una compañía de Texas que vende servicios para scraping de motores de búsqueda.

Reddit alega que Oxylabs “es explícito en que su servicio de scraping está destinado a eludir las medidas tecnológicas de Google”, señalando un sitio web de Oxylabs llamado “Cómo extraer resultados de búsqueda de Google”.

SerpApi promociona el mismo servicio, incluidas algunas opciones para extraer SERPs a “velocidades ridículas”. Para engañar a los navegadores, la opción más rápida de SerpApi utiliza “un enjambre de servidores para ocultarse, evitar o simplemente abrumar por fuerza bruta las medidas efectivas que Google ha implementado para evitar el acceso automatizado a los resultados del motor de búsqueda”,

Fuente original: ver aquí