Inteligencia Artificial

Cloudflare advierte sobre Perplexity y el uso de la IA para acceder a datos restringidos

El reto del scraping web con IA

El debate sobre los límites éticos del acceso a datos en la web vuelve a estar en el centro del debate.

Cloudflare denunció públicamente a Perplexity, una startup de inteligencia artificial, de ignorar las restricciones impuestas por sitios web y recurrir a tácticas avanzadas para seguir accediendo a contenido incluso cuando los administradores habían bloqueado explícitamente a sus bots.

¿Qué acusa Cloudflare exactamente?

Según Cloudflare, detectaron que Perplexity evadía las reglas establecidas en archivos robots.txt y utilizaba técnicas de “encubrimiento”, como alterar el identificador de su bot (user-agent) para hacerse pasar por navegadores legítimos como Google Chrome en macOS.

Además, empleaba múltiples direcciones IP y redes autónomas para esquivar los mecanismos de detección convencionales. Esta conducta, según Cloudflare, se observó en “decenas de miles de dominios y millones de solicitudes por día”.

La sospecha surgió tras recibir quejas de clientes cuyos sitios web seguían siendo rastreados por Perplexity a pesar de tener reglas claras de exclusión. Ante esto, Cloudflare eliminó a Perplexity de su lista de bots verificados e implementó nuevas barreras para bloquear este comportamiento.

La respuesta de Perplexity: Defensa y contraataque

Perplexity, por su parte, insiste en que hay un malentendido de fondo.

Niega dedicarse al crawling masivo y asegura que su plataforma opera a través de “agentes guiados por el usuario”, que únicamente acceden a sitios web cuando alguien realiza una consulta específica, y que esa información no se almacena ni se reutiliza para entrenar modelos de IA.

La startup considera que las pruebas de Cloudflare están mal interpretadas y que parte del tráfico atribuido provenía de un servicio de terceros, BrowserBase, utilizado en pequeña escala y no para scraping masivo.

Además, Perplexity señala como equivocadas algunas representaciones gráficas publicadas por Cloudflare y acusa a la empresa de promover información engañosa con fines comerciales.

Un problema ético mayor: la frontera difusa del acceso a la web

Este conflicto refleja una tensión creciente en el ecosistema digital actual.

Por un lado, las empresas de IA dependen de datos públicos para mejorar sus modelos y servicios, mientras que los propietarios de plataformas buscan preservar su control, proteger derechos de autor y, en muchos casos, definir modelos de negocio alrededor del acceso a su contenido.

El caso de Cloudflare y Perplexity pone sobre la mesa la dificultad de aplicar normas consistentes en la web, donde los métodos para restringir a bots no siempre son respetados ni técnicamente eficaces.

Con la proliferación de soluciones de IA que requieren información en tiempo real, la distinción entre asistente digital útil y bot intrusivo se vuelve cada vez más ambigua.

Fuente: Cloudflare 

Artículos relacionados

Botón volver arriba
PasionMóvil
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible.

La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudarnos a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Tienes toda la información sobre privacidad, derechos legales y cookies en nuestra página de privacidad y cookies.