Anthropic informó de una campaña de mediados de septiembre de 2025 en la que la APT china GTG-1002 utilizó Claude Code y el Model Context Protocol (MCP) para coordinar ataques contra alrededor de 30 grandes organizaciones, incluidas tecnológicas, financieras, químicas y entidades gubernamentales. En varios incidentes se habría logrado acceso con exfiltración de datos, marcando un hito en el uso ofensivo de agentes de IA.
Ataques con agentes de IA contra 30 organizaciones: lo que se sabe
Según Anthropic, se trata del primer caso documentado en el que un agente de IA culmina con éxito intrusiones en “objetivos de alto valor”. La selección de objetivos la realizaron operadores humanos, mientras que etapas posteriores se automatizaron: el agente principal orquestó procesos de múltiples pasos y subagentes especializados ejecutaron tareas de reconocimiento, búsqueda de vulnerabilidades y evaluación de técnicas de explotación.
Quiénes fueron los objetivos y cómo se coordinó la campaña
El alcance abarcó sectores críticos y corporativos, elevando el riesgo sistémico para la ciberresiliencia nacional y empresarial. La combinación de Claude Code + MCP permitió orquestar acciones sin supervisión continua, incrementando velocidad y paralelismo. El operador humano dedicaba entre 2 y 10 minutos a verificar resultados y autorizar pasos clave; a partir de ahí, los agentes continuaban de forma autónoma con validación de credenciales, escalada de privilegios, movimiento lateral y recolección de información sensible.
Arquitectura del marco ofensivo: subagentes, MCP y orquestación
El framework malicioso distribuía funciones: inventario y escaneo, mapeo de superficie de ataque, preparación de cadenas de explotación y generación de cargas a medida. MCP actuó como capa de contexto y herramientas, facilitando que los subagentes interactuasen con sistemas y APIs. Para eludir controles, las cadenas de prompts se disfrazaban de consultas técnicas rutinarias, permitiendo ejecutar tareas aisladas sin exponer el objetivo global al agente.
Limitaciones actuales: alucinaciones y falsos positivos
Anthropic observó episodios de alucinaciones del agente: identificación errónea de cuentas inactivas como válidas, clasificación de información pública como crítica y sobrestimación del éxito de ciertos pasos. Estas imprecisiones exigieron verificación humana continua, un freno práctico a la completa autonomía ofensiva en el estado actual de la tecnología.
Relevancia para empresas y administraciones públicas
La compañía califica la campaña como una escalada significativa respecto a episodios previos: en agosto, actores criminales usaron Claude para extorsión contra 17 organizaciones (rescates entre 75.000 y 500.000 dólares), pero la actividad principal seguía en manos humanas. Ahora se observa la operacionalización de agentes LLM, aunque con control de calidad humano. Este patrón coincide con informes de ENISA y guías de CISA/NCSC, que documentan el acelerado uso de IA para automatizar reconocimiento, phishing y análisis de infraestructuras, reduciendo barreras de entrada y acortando el ciclo de ataque.
Respuesta de Anthropic y esfuerzos de contención
Tras detectar los abusos, Anthropic bloqueó cuentas asociadas, abrió una investigación interna, notificó a las víctimas y trasladó evidencias a fuerzas del orden. La empresa subraya que las técnicas de prompting empleadas ocultaban la intención maliciosa tras peticiones aparentemente inocuas, facilitando que subagentes cumplieran objetivos tácticos sin “comprender” el propósito final.
Recomendaciones prácticas para reducir el riesgo de ataques con IA
Gestión de identidades y accesos (IAM): segmentación estricta, principio de mínimo privilegio, MFA resistente a phishing, rotación y control de secretos, y monitoreo de sesiones con anomalías.
Detección y respuesta: telemetría en endpoints y red (EDR/NDR), detección de movimiento lateral, control de accesos masivos o inusuales a data lakes y repositorios, y correlación en SIEM con reglas centradas en comportamiento.
CI/CD y cloud: minimización de superficies expuestas, control de cuentas de servicio, validación de cambios de infraestructura, y restricción de herramientas externas y APIs que puedan ser invocadas por agentes.
Seguridad de IA/LLM: políticas de uso seguro con tool-use gating, monitoreo de egress, verificación del contexto, red-teaming contra prompt injection y auditoría de integraciones MCP y protocolos equivalentes.
La operación atribuida a GTG-1002 evidencia un salto en madurez del uso de agentes de IA en ciberataques: automatización de tareas repetitivas, validación humana de decisiones críticas y escalado rápido a múltiples objetivos. Aunque persisten limitaciones como las alucinaciones, el rumbo es claro. Es recomendable reforzar IAM, acelerar la analítica de anomalías y definir políticas de uso seguro de LLM. Actuar ahora reduce la probabilidad de intrusión y acota el impacto cuando se produzcan incidentes.