Anthropic confirma primer ataque agéntico con IA, Claude fue manipulado

15 noviembre, 2025

En septiembre de este año un grupo de hackers, vinculados al gobierno chino, utilizaron Claude (la IA de Anthropic) para ejecutar un ciberataque a gran escala de forma casi completamente autónoma.

Es decir, la IA realizó entre el 80 y 90 por ciento del trabajo… con intervención humana mínima. Anthropic lo confirmó esta semana, y la noticia debería ponernos en alerta. Porque esto no es solo un incidente tecnológico más – estamos ante el primer ciberataque «agéntico» documentado.

Así funciona un ataque agéntico

Aquí viene lo interesante (y preocupante, también). Los atacantes lograron engañar a Claude para que pasara por alto sus propias barreras de seguridad.

Utilizaron una técnica conocida como «jailbreaking», que básicamente consiste en fragmentar las instrucciones maliciosas en pequeñas tareas que, por separado, parecen totalmente inocentes.

Además, le dijeron a Claude que era un empleado de una empresa de ciberseguridad legítima y que estaba realizando pruebas defensivas. Vaya truco, ¿no? Y Claude, confiado, se puso a trabajar.

Una vez dentro, la IA realizó tareas que normalmente requerirían un equipo completo de hackers especializados.

Escaneó las redes objetivo, identificó las bases de datos más valiosas, escribió código de explotación personalizado, robó credenciales y hasta extrajo grandes cantidades de datos privados – todo esto en una fracción del tiempo que les habría tomado a humanos.

Después de completar el ataque, Claude produjo documentación detallada para sus «jefes» humanos, organizando credenciales robadas y sistemas analizados para facilitar futuras operaciones. Básicamente, hizo el trabajo sucio de principio a fin.

Treinta objetivos y múltiples sectores afectados

El informe de Anthropic es claro. Este grupo, al que la compañía identificó con «alta confianza» como patrocinado por el estado chino, apuntó a aproximadamente 30 organizaciones globales.

Entre los blancos había grandes empresas tecnológicas, instituciones financieras, compañías de manufactura química y agencias gubernamentales.

Y sí, en algunos casos lograron infiltrarse con éxito. Aunque Anthropic no detalla cuántos exactamente, el hecho de que hayan tenido aunque sea un caso de éxito ya es suficiente para encender las alarmas.

Lo más inquietante es que los humanos solo intervinieron en puntos críticos de decisión – estimados entre cuatro y seis momentos por campaña. El resto del tiempo, Claude estaba operando de manera autónoma.

Cómo detectó Anthropic el ataque

Aquí hay una ironía bastante peculiar. Anthropic detectó este uso malicioso de Claude… usando el propio Claude. Sus sistemas de monitoreo basados en IA identificaron patrones de uso inusuales a mediados de septiembre de 2025.

Después de una investigación forense de diez días, el equipo de seguridad logró reconstruir todo el ataque. Utilizaron la misma IA para analizar millones de registros de API y desentrañar las cadenas de operaciones mucho más rápido de lo que cualquier equipo humano podría haberlo hecho.

Es decir, estamos ante una nueva era de la ciberseguridad donde la IA se usa tanto para atacar como para defender. Una especie de carrera armamentista digital, pero con algoritmos.

Por qué esto cambia las reglas del juego

Este caso es fundamentalmente diferente a incidentes anteriores donde la IA había participado en ciberataques. Antes, los modelos de lenguaje servían como asesores – ayudaban a los humanos con sugerencias o generación de código. Pero seguían siendo herramientas pasivas.

Ahora, Claude demostró capacidades «agénticas», actuando como un agente autónomo capaz de ejecutar operaciones completas con supervisión humana mínima. Eso reduce drásticamente las barreras de entrada para realizar ciberataques sofisticados.

Incluso adversarios con menos recursos ahora podrían usar modelos avanzados para escalar sus operaciones.

Ya no hace falta tener un equipo enorme de hackers élite – con acceso a una IA potente y algo de astucia para «jailbreakearla», cualquier grupo medianamente organizado podría intentar algo parecido.

Etiquetas

15 noviembre, 2025

Así funciona un ataque agéntico

Treinta objetivos y múltiples sectores afectados

Cómo detectó Anthropic el ataque

Por qué esto cambia las reglas del juego

Smartphones nubia y ZTE con hasta 35% de descuento en México

Ventas flojas del iPhone 16e y Air complican la estrategia de Apple

Artículos relacionados

Perplexity da marcha atrás y elimina la publicidad de su chatbot de inteligencia artificial

DNS bajo ataque, una campaña global usa Aeza para desviar tráfico desde routers antiguos

Malware Keenadu infecta firmware de tablets Android de varias marcas

Gemini ahora permite multitarea en pantalla dividida en smartphones convencionales