Cloudflare advierte sobre Perplexity y el uso de la IA para acceder a datos restringidos
El reto del scraping web con IA
El debate sobre los límites éticos del acceso a datos en la web vuelve a estar en el centro del debate.
Cloudflare denunció públicamente a Perplexity, una startup de inteligencia artificial, de ignorar las restricciones impuestas por sitios web y recurrir a tácticas avanzadas para seguir accediendo a contenido incluso cuando los administradores habían bloqueado explícitamente a sus bots.

¿Qué acusa Cloudflare exactamente?
Según Cloudflare, detectaron que Perplexity evadía las reglas establecidas en archivos robots.txt y utilizaba técnicas de “encubrimiento”, como alterar el identificador de su bot (user-agent) para hacerse pasar por navegadores legítimos como Google Chrome en macOS.
Además, empleaba múltiples direcciones IP y redes autónomas para esquivar los mecanismos de detección convencionales. Esta conducta, según Cloudflare, se observó en “decenas de miles de dominios y millones de solicitudes por día”.
La sospecha surgió tras recibir quejas de clientes cuyos sitios web seguían siendo rastreados por Perplexity a pesar de tener reglas claras de exclusión. Ante esto, Cloudflare eliminó a Perplexity de su lista de bots verificados e implementó nuevas barreras para bloquear este comportamiento.

La respuesta de Perplexity: Defensa y contraataque
Perplexity, por su parte, insiste en que hay un malentendido de fondo.
Niega dedicarse al crawling masivo y asegura que su plataforma opera a través de “agentes guiados por el usuario”, que únicamente acceden a sitios web cuando alguien realiza una consulta específica, y que esa información no se almacena ni se reutiliza para entrenar modelos de IA.
La startup considera que las pruebas de Cloudflare están mal interpretadas y que parte del tráfico atribuido provenía de un servicio de terceros, BrowserBase, utilizado en pequeña escala y no para scraping masivo.
Además, Perplexity señala como equivocadas algunas representaciones gráficas publicadas por Cloudflare y acusa a la empresa de promover información engañosa con fines comerciales.

Un problema ético mayor: la frontera difusa del acceso a la web
Este conflicto refleja una tensión creciente en el ecosistema digital actual.
Por un lado, las empresas de IA dependen de datos públicos para mejorar sus modelos y servicios, mientras que los propietarios de plataformas buscan preservar su control, proteger derechos de autor y, en muchos casos, definir modelos de negocio alrededor del acceso a su contenido.
El caso de Cloudflare y Perplexity pone sobre la mesa la dificultad de aplicar normas consistentes en la web, donde los métodos para restringir a bots no siempre son respetados ni técnicamente eficaces.
Con la proliferación de soluciones de IA que requieren información en tiempo real, la distinción entre asistente digital útil y bot intrusivo se vuelve cada vez más ambigua.
Fuente: Cloudflare



