Inteligencia Artificial

Reddit demanda a Perplexity por extraer contenido sin permiso

La plataforma de comunidades Reddit acaba de abrir un nuevo frente en la batalla legal que enfrenta a las empresas tecnológicas con los creadores de contenido.

Esta vez, la compañía presentó una demanda en un tribunal federal de Nueva York contra Perplexity AI, una startup de inteligencia artificial, acusándola de robar los comentarios y publicaciones de millones de usuarios para alimentar su motor de respuestas impulsado por IA.​

Disfraces digitales y scraping encubierto

Según la demanda presentada el 22 de octubre, Perplexity habría trabajado junto a Oxylabs (una empresa especializada en extracción de datos), SerpApi y AWMProxy (descrito por Reddit como una «antigua red de bots rusa») para sortear las medidas de seguridad de la plataforma.​

¿Cómo lo hicieron? Reddit alega que estas compañías «enmascararon sus identidades y disfrazaron a sus raspadores web como usuarios habituales» para extraer grandes volúmenes de contenido sin permiso.

Básicamente se disfrazaron de personas normales navegando por Reddit, cuando en realidad eran robots aspirando información a escala industrial.​

Ben Lee, director legal de Reddit, lo explicó sin pelos en la lengua:

Las empresas de IA están inmersas en una carrera armamentística por contenido humano de calidad, y esa presión ha alimentado una economía de ‘lavado de datos’ a escala industrial.​

La prueba trampa que lo cambió todo

Aquí viene la parte interesante. Reddit no se quedó de brazos cruzados. La compañía diseñó una prueba para confirmar sus sospechas: creó una publicación accesible únicamente para Google.​

Pues bien… pocas horas después, ese mismo contenido apareció en el motor de respuestas de Perplexity. Eso demostró, según Reddit, que los acusados estaban raspando resultados de búsqueda de Google para incorporar información de Reddit a sus sistemas de IA.​

El valor de las conversaciones humanas

Reddit no es cualquier sitio web. La plataforma alberga más de 100,000 comunidades temáticas (llamadas «subreddits») donde millones de personas debaten, comparten experiencias y generan contenido valioso cada día.​

Es precisamente este tipo de conversación natural y espontánea lo que las empresas de inteligencia artificial necesitan desesperadamente para entrenar sus modelos.

Los investigadores de IA han señalado en repetidas ocasiones que las discusiones moderadas de Reddit pueden mejorar significativamente la naturalidad de las respuestas generadas por chatbots de IA.​

Por eso Reddit se ha convertido en un objetivo prioritario. Ben Lee lo expresó claramente:

Reddit es un objetivo primordial porque es una de las colecciones más grandes y dinámicas de conversación humana jamás creadas.​

La estrategia de monetización de Reddit

La plataforma ha tomado una postura clara: sus datos tienen valor y solo otorgará acceso a través de acuerdos de licencia legítimos. De hecho, Reddit ya ha firmado convenios de este tipo con gigantes tecnológicos como OpenAI y Google (Alphabet) para que utilicen su contenido en el entrenamiento de sus sistemas de IA.​

Pero tras enviar una carta de cese y desistimiento a Perplexity en mayo de 2024, Reddit afirma que sucedió algo inesperado: en lugar de detenerse, «el volumen de citas a Reddit se multiplicó por cuarenta».

Es decir, lejos de frenar, Perplexity aceleró su uso del contenido de la plataforma.​

La respuesta de Perplexity: «Esto es extorsión»

Perplexity AI no se quedó callada. En un comunicado publicado en la propia plataforma Reddit, la compañía calificó la demanda como «extorsión» y negó rotundamente las acusaciones.​

La empresa argumenta que no entrena modelos de IA con contenido específico, sino que simplemente resume y referencia discusiones disponibles públicamente en Reddit. Perplexity sostiene que, por esta razón, celebrar un acuerdo de licencia sería «imposible».​

«Nuestro enfoque sigue siendo responsable mientras proporcionamos respuestas fácticas con IA precisa, y no toleraremos amenazas contra la apertura y el interés público», declaró la startup.​

SerpApi también se pronunció: «Estamos en completo desacuerdo con las alegaciones de Reddit y tenemos la intención de defendernos vigorosamente en los tribunales«. Oxylabs, por su parte, dijo estar «sorprendida y decepcionada» porque Reddit no intentó contactarlos directamente antes de demandar.​

El futuro de los datos y la IA

Este litigio podría sentar precedentes importantes sobre cómo se regulará el acceso a datos para el entrenamiento de inteligencia artificial. El resultado tendrá implicaciones no solo para Reddit y Perplexity, sino para toda la industria tecnológica.​

Mientras tanto, el caso nos recuerda algo fundamental: detrás de cada respuesta generada por IA, detrás de cada chatbot que parece entendernos… hay millones de conversaciones reales, de personas reales, compartiendo experiencias, conocimientos y opiniones.​

Y esas conversaciones – esos datos – tienen un valor enorme en la era de la inteligencia artificial.​

Fuente: CNBC

Artículos relacionados

Botón volver arriba
PasionMóvil
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible.

La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudarnos a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Tienes toda la información sobre privacidad, derechos legales y cookies en nuestra página de privacidad y cookies.