Cloudflare advierte sobre Perplexity y el uso de la IA para acceder a datos restringidos

El reto del scraping web con IA

El debate sobre los límites éticos del acceso a datos en la web vuelve a estar en el centro del debate.

Cloudflare denunció públicamente a Perplexity, una startup de inteligencia artificial, de ignorar las restricciones impuestas por sitios web y recurrir a tácticas avanzadas para seguir accediendo a contenido incluso cuando los administradores habían bloqueado explícitamente a sus bots.

¿Qué acusa Cloudflare exactamente?

Según Cloudflare, detectaron que Perplexity evadía las reglas establecidas en archivos robots.txt y utilizaba técnicas de “encubrimiento”, como alterar el identificador de su bot (user-agent) para hacerse pasar por navegadores legítimos como Google Chrome en macOS.

Además, empleaba múltiples direcciones IP y redes autónomas para esquivar los mecanismos de detección convencionales. Esta conducta, según Cloudflare, se observó en “decenas de miles de dominios y millones de solicitudes por día”.

La sospecha surgió tras recibir quejas de clientes cuyos sitios web seguían siendo rastreados por Perplexity a pesar de tener reglas claras de exclusión. Ante esto, Cloudflare eliminó a Perplexity de su lista de bots verificados e implementó nuevas barreras para bloquear este comportamiento.

La respuesta de Perplexity: Defensa y contraataque

Perplexity, por su parte, insiste en que hay un malentendido de fondo.

Niega dedicarse al crawling masivo y asegura que su plataforma opera a través de “agentes guiados por el usuario”, que únicamente acceden a sitios web cuando alguien realiza una consulta específica, y que esa información no se almacena ni se reutiliza para entrenar modelos de IA.

La startup considera que las pruebas de Cloudflare están mal interpretadas y que parte del tráfico atribuido provenía de un servicio de terceros, BrowserBase, utilizado en pequeña escala y no para scraping masivo.

Además, Perplexity señala como equivocadas algunas representaciones gráficas publicadas por Cloudflare y acusa a la empresa de promover información engañosa con fines comerciales.

Un problema ético mayor: la frontera difusa del acceso a la web

Este conflicto refleja una tensión creciente en el ecosistema digital actual.

Por un lado, las empresas de IA dependen de datos públicos para mejorar sus modelos y servicios, mientras que los propietarios de plataformas buscan preservar su control, proteger derechos de autor y, en muchos casos, definir modelos de negocio alrededor del acceso a su contenido.

El caso de Cloudflare y Perplexity pone sobre la mesa la dificultad de aplicar normas consistentes en la web, donde los métodos para restringir a bots no siempre son respetados ni técnicamente eficaces.

Con la proliferación de soluciones de IA que requieren información en tiempo real, la distinción entre asistente digital útil y bot intrusivo se vuelve cada vez más ambigua.

Fuente: Cloudflare 

Salir de la versión móvil