¿Por qué Reddit bloqueó a Internet Archive y la Wayback Machine?
Reddit combate el scraping de IA
Reddit ha tomado la decisión de bloquear el acceso de Internet Archive a la mayoría de su contenido a través de la Wayback Machine, una herramienta que permite archivar y visualizar cómo eran los sitios web en el pasado.
Este bloqueo responde al descubrimiento de que empresas dedicadas a la inteligencia artificial (IA) estaban extrayendo datos archivados de Reddit sin permiso para entrenar modelos de IA, violando las políticas de la plataforma.

Limitaciones impuestas a la Wayback Machine
A partir de ahora, la Wayback Machine solo podrá indexar la página principal de Reddit, quedando bloqueado el acceso a páginas de detalles de publicaciones, comentarios y perfiles de usuarios.
Esto implicará que el archivo solo mostrará qué publicaciones y titulares estaban en tendencia en determinados días, en lugar de preservar el contenido completo y detallado detrás de ellos.

Motivos detrás del bloqueo
Un portavoz de Reddit, Tim Rathschmidt, explicó que aunque Internet Archive ofrece un servicio valioso para la web abierta, se detectaron casos en los que compañías de IA infringían las políticas internas de Reddit al utilizar los datos archivados para scraping.
Reddit enfatiza la importancia de proteger la privacidad de sus usuarios y cumplir con reglas como la eliminación de contenido borrado, por lo cual ha restringido el acceso para salvaguardar a los «redditors».
La compañía había advertido con antelación a Internet Archive sobre los próximos cambios y comenzó a aplicar estas restricciones progresivamente.

Contexto de la protección de datos de Reddit
Reddit ha endurecido el control sobre el acceso a sus datos ante la creciente demanda de herramientas de IA.
En 2023, realizó cambios polémicos a su API que obligaron al cierre de algunas aplicaciones de terceros, argumentando que se utilizaban para recopilar contenido con fines de entrenamiento de IA sin autorización ni pago.
Además, Reddit ha cerrado acuerdos millonarios con compañías como Google y OpenAI para ofrecer datos especialmente para IA, pero solo bajo condiciones de pago.
Incluso en junio del mismo año, Reddit demandó a la empresa de IA Anthropic por continuar con prácticas de scraping tras haberse comprometido a detenerlas.

Impacto para investigadores y usuarios
La Wayback Machine ha sido una herramienta esencial para periodistas, investigadores y público general, permitiendo conservar la historia de internet y verificar contenido eliminado o modificado.
Sin embargo, el auge de la IA y la competencia comercial han llevado a plataformas como Reddit a replantear el nivel de acceso abierto que ofrecen a sus contenidos.
Según Mark Graham, director de la Wayback Machine, las conversaciones con Reddit siguen en curso, lo que abre la posibilidad de futuras negociaciones.
Fuente: Mashable



