Ataques En Skills De Agentes De IA Que Eluden Escáneres

La compañía AIR Security llevó a cabo un experimento que demostró una vulnerabilidad estructural en el ecosistema de skills para agentes de IA: un skill falso superó la comprobación de todos los escáneres de seguridad probados, incluidas las herramientas de Cisco y NVIDIA, gracias a que la lógica maliciosa se alojaba en un recurso externo que los escáneres no analizan. El problema afecta a todos los que utilizan agentes de IA con skills conectables procedentes de marketplaces: los escáneres solo revisan el contenido del paquete en el momento del envío, mientras que el contenido de los enlaces externos puede ser sustituido en cualquier momento después de la comprobación. Las organizaciones deben replantearse el modelo de confianza hacia los skills de los agentes e implantar controles sobre las dependencias externas.

Mecánica del experimento

El skill llamado brand-landingpage se presentaba como una herramienta para crear landing pages con ayuda de Google Stitch y estaba dirigido a usuarios no técnicos: profesionales de marketing, ventas y diseño. Según AIR, para dotarlo de legitimidad los investigadores utilizaron dos señales de confianza clave:

Estrellas de GitHub: el skill se añadió mediante un pull request a un repositorio popular del marketplace con unas 36 000 estrellas y 156 skills. Tras la fusión del PR, el skill heredó la reputación de todo el repositorio.
Veredicto limpio de los escáneres: el paquete no contenía código malicioso, solo una instrucción para que el agente instalara el “Stitch SDK” siguiendo la documentación en un enlace externo.

El elemento clave del ataque es el dominio stitch-design.ai, controlado por AIR y no por Google (el servicio auténtico Stitch está en stitch.withgoogle.com). Al principio, en esta dirección se alojaba la documentación legítima de Stitch, lo que llevaba a los escáneres a considerar el paquete como seguro. Tras la difusión del skill mediante anuncios en Instagram, el contenido de la página se sustituyó por instrucciones que ordenaban al agente descargar y ejecutar un script.

Un skill es un conjunto de instrucciones que el agente carga en su contexto y ejecuta con permisos comparables a los de la petición del usuario. Tal como señala la documentación de Anthropic, los skills que consultan URL externas representan un riesgo precisamente porque el contenido del enlace puede cambiar después de superar la revisión.

Por qué los escáneres no detectaron la amenaza

Los escáneres probados —Cisco skill-scanner, NVIDIA Skillspector y los escáneres integrados en skills.sh— analizan únicamente el contenido del paquete presentado: el archivo SKILL.md y los archivos adjuntos. Los recursos externos a los que el skill hace referencia quedan fuera del alcance de la comprobación.

El problema es de carácter estructural: la revisión se realiza una sola vez en el momento del envío, mientras que la página a la que el skill dirige al agente puede reescribirse en cualquier momento. Se trata de un patrón clásico de sustitución diferida de la carga útil, bien conocido en el contexto de los ataques a la cadena de suministro de software.

Confirmación independiente del problema

El experimento de AIR no es una observación aislada. Tres semanas antes, la empresa Trail of Bits publicó una investigación en la que consiguió eludir el detector de skills maliciosos ClawHub, el escáner de Cisco y los tres escáneres integrados en skills.sh. La conclusión de Trail of Bits fue tajante: el escáner comprueba un paquete fijo, mientras que el atacante puede ir ajustando iterativamente la carga útil hasta que esta supere la revisión.

Otro estudio por separado mostró que los escáneres a menudo discrepan en sus evaluaciones, ya que cada uno analiza el skill de forma aislada, sin tener en cuenta los enlaces externos ni los posibles cambios posteriores a la revisión.

Evaluación del impacto y salvedades

Es importante tener en cuenta el contexto de la publicación: AIR está lanzando su propio marketplace gestionado de skills y cierra el informe promocionándolo. El alcance declarado y los detalles sobre las cuentas corporativas no han sido verificados de forma independiente. El material original indica correctamente que estas cifras deben leerse con escepticismo.

Sin embargo, el método de ataque está confirmado de forma independiente y representa una amenaza real. Las posibles consecuencias de un uso malicioso incluyen lectura de archivos, movimiento de datos y acceso a sistemas internos, dentro del conjunto de permisos disponibles para el agente. Corren mayor riesgo las organizaciones en las que el personal instala por su cuenta skills para agentes de IA sin control centralizado, especialmente en los departamentos de marketing, diseño y ventas a los que se dirigía la campaña publicitaria.

Recomendaciones de protección

Inventario: determine qué skills ya están instalados y en funcionamiento en los agentes de la organización. Según los investigadores, la mayoría se instalaron sin ningún tipo de revisión.
Control centralizado: canalice la instalación de nuevos skills a través de una única fuente controlada. Prohíba la instalación autónoma de skills desde marketplaces públicos.
Verificación de dependencias externas: analice no solo el contenido del paquete, sino también todos los recursos a los que el skill hace referencia. Compruebe la titularidad de los dominios.
Revisión periódica: vuelva a evaluar los skills cada vez que cambie el contenido externo asociado. Un resultado limpio en el momento de la instalación no garantiza la seguridad a futuro.
Fijación de versiones: ancle versiones concretas de los skills y de sus dependencias.
Privilegios mínimos: limite a los agentes a los permisos estrictamente necesarios. Parta de la premisa de que cualquier instrucción externa cargada por el agente se ejecuta con sus privilegios.

El experimento de AIR no reveló una nueva vulnerabilidad en un producto concreto: ilustró de forma clara cómo varias señales de confianza débiles (estrellas de GitHub prestadas, escaneo único del paquete, enlace externo sobrescribible) se combinan en un vector de ataque operativo contra la cadena de suministro de agentes de IA. Las organizaciones que utilizan agentes con skills conectables deben auditar de inmediato los skills instalados, implantar controles sobre las dependencias externas y adoptar un modelo en el que el skill se trate como código ejecutable, y no como texto de confianza.

Mecánica del experimento

Por qué los escáneres no detectaron la amenaza

Confirmación independiente del problema

Evaluación del impacto y salvedades

Recomendaciones de protección

CyberSecureFox Editorial Team

Deja un comentario Cancelar la respuesta

Noticias de Ciberseguridad

Cómo un skill malicioso para agentes de IA pasó todos los escáneres

Noticias de Ciberseguridad

Operación de CSIS para limpiar botnets en routers domésticos e IoT en Canadá

Noticias de Ciberseguridad

RAT para Windows distribuido mediante paquetes npm falsos de PostCSS

Noticias de Ciberseguridad

Uso de scripts VBScript en WhatsApp para desplegar RMM remoto

Noticias de Ciberseguridad

Cómo GPT-5.5-Cyber y Daybreak pretenden reforzar el software abierto

Noticias de Ciberseguridad

Análisis de DifyTap: cuatro fallos que exponen datos en Dify

Cómo un skill malicioso para agentes de IA pasó todos los escáneres

Mecánica del experimento

Por qué los escáneres no detectaron la amenaza

Confirmación independiente del problema

Evaluación del impacto y salvedades

Recomendaciones de protección

CyberSecureFox Editorial Team

Deja un comentario Cancelar la respuesta

Lo Más Leído

Noticias de Ciberseguridad

Cómo un skill malicioso para agentes de IA pasó todos los escáneres

Noticias de Ciberseguridad

Operación de CSIS para limpiar botnets en routers domésticos e IoT en Canadá

Noticias de Ciberseguridad

RAT para Windows distribuido mediante paquetes npm falsos de PostCSS

Noticias de Ciberseguridad

Uso de scripts VBScript en WhatsApp para desplegar RMM remoto

Noticias de Ciberseguridad

Cómo GPT-5.5-Cyber y Daybreak pretenden reforzar el software abierto

Noticias de Ciberseguridad

Análisis de DifyTap: cuatro fallos que exponen datos en Dify

CyberSecureFox