Mastodon Mastodon Mastodon Mastodon

Cómo OpenClaw expone a los AI-agentes a inyecciones y robo de datos

Foto del autor

CyberSecureFox Editorial Team

Publicado:

Dos equipos independientes de investigadores — Imperva y Varonis — publicaron esta semana los resultados de sus estudios, que demuestran que OpenClaw, un agente de IA autoalojado y de código abierto, puede ser obligado a ejecutar código arbitrario del atacante o a exfiltrar datos confidenciales al exterior a través de entradas aparentemente normales: un contacto compartido, una tarjeta de visita vCard o un correo electrónico corriente. La vulnerabilidad de inyección a través de objetos de mensajes se ha corregido en la versión OpenClaw 2026.4.23; sin embargo, el problema del phishing social contra agentes es de naturaleza arquitectónica y no se resuelve con un parche. Quienes utilicen OpenClaw deben actualizar de inmediato y replantearse el modelo de acceso del agente.

Inyección a través de objetos de mensajes: análisis técnico

El investigador de Imperva Johann Sillam descubrió que, al pasar un contacto compartido, una vCard o una etiqueta de geolocalización al modelo de lenguaje, OpenClaw «desplegaba» el contenido de esos objetos directamente en el texto del prompt sin ningún marcado que indicara que procedían de una fuente no confiable. Al mismo tiempo, el contenido que el agente descargaba de internet sí se envolvía en un marcador especial de contenido no confiable, mientras que los objetos de mensajes no se sometían a ese tratamiento.

Según Imperva, un contacto compartido solo pasaba al modelo el campo de nombre en el formato <contact: name, number>. Dado que los caracteres < y > son válidos en el nombre de un contacto, el modelo no podía determinar dónde terminaba el nombre real y empezaba la instrucción inyectada. Factor clave: el nombre del contacto se trunca al mostrarse en pantalla —tanto en WhatsApp como en la aplicación receptora—, por lo que la víctima no ve la carga maliciosa. Un vector similar funcionaba a través del campo de nombre completo en la vCard y a través del texto adjunto a una geolocalización compartida.

Durante las pruebas en Gemini 3.1 Pro (compilación preliminar), el texto oculto en el contacto instruyó al agente para que descargara y ejecutara un script desde el servidor de los investigadores, y el agente lo hizo. En cambio, un intento de inyección a través de una imagen con instrucciones incrustadas no tuvo éxito: según los investigadores, los modelos ya están entrenados para resistir ese vector, mientras que el ataque mediante objetos de mensajes resultó ser nuevo para ellos.

Imperva destaca un riesgo adicional: la memoria en OpenClaw está activada por defecto, lo que significa que un único contacto ampliamente difundido con una instrucción maliciosa puede comprometer silenciosamente a todos los agentes que lo procesen, si no están aislados en un sandbox. Los investigadores también hallaron un patrón similar de «despliegue» de datos en el prompt en otros asistentes personales de IA, lo que apunta al carácter sistémico del problema.

La corrección incluida en la versión 2026.4.23 mueve los nombres de contactos, los campos de vCard y las etiquetas de geolocalización desde el cuerpo del prompt a un canal separado de metadatos no confiables.

Phishing de agentes: un correo normal como vector de ataque

El equipo de Varonis Threat Labs, dirigido por Itay Yashar, abordó el problema desde otra perspectiva. Los investigadores crearon el agente Pinchy en la plataforma OpenClaw, lo conectaron a un buzón de Gmail con datos sintéticos de negocio realistas y llevaron a cabo cuatro simulaciones de phishing en los modelos Google Gemini 3.1 Pro y OpenAI Codex GPT-5.4.

Varonis establece una distinción fundamental entre la prompt injection (instrucciones ocultas en los datos) y lo que denominan phishing de agentes: una petición verosímil que llega por un canal normal y tiene éxito porque el agente actúa antes de verificar al remitente.

Resultados de las pruebas de exfiltración de datos:

  • Escenario de urgencia: un correo en nombre del team lead «Dan» desde una dirección externa de Gmail solicitaba acceso al entorno de staging durante un supuesto incidente de producción. El agente localizó y reenvió en texto claro claves de prueba de AWS IAM, cadenas de conexión a la base de datos y credenciales SSH.
  • Escenario de rutina: una petición de exportación semanal de clientes para preparar un QBR. El agente envió un conjunto sintético de datos de 247 clientes corporativos con contactos e importes de los contratos.

Ambos fallos se produjeron a pesar de tener activo un perfil estricto que ordenaba al agente verificar a los remitentes. La regla existía, pero la urgencia la superó en el primer caso y la rutina en el segundo.

Al mismo tiempo, el agente se comportó mucho mejor al reconocer amenazas técnicas: interactuó con una página de phishing de tarjetas regalo, pero no envió credenciales reales y finalmente la marcó como sospechosa. Ante una pantalla de consentimiento OAuth maliciosa, disfrazada de aplicación de control horario, el agente comprobó la URL de destino de la redirección, la consideró sospechosa y se detuvo.

Conclusión clave de Varonis: el AI-agente reconoce mejor que muchas personas las URL maliciosas y los portales de inicio de sesión falsos, pero se desempeña peor en la evaluación social —por ejemplo, cuando un colega pide de repente credenciales en un momento atípico. Según los investigadores, OpenAI Codex GPT-5.4 mostró más cautela que Gemini 3.1 Pro al enviar datos a recursos externos; sin embargo, ambos modelos cedieron ante pretextos sociales.

Problema arquitectónico: la «tríada letal»

Varonis relaciona ambos vectores de ataque con el concepto que Simon Willison denomina «tríada letal»: un agente que puede leer datos privados, aceptar contenido no confiable y enviar datos al exterior. OpenClaw posee las tres propiedades; por eso un contacto envenenado y un correo amistoso llevan al mismo resultado.

El problema de los límites de confianza también se manifiesta a nivel de código. Según el análisis de InfoSec Write-ups, a partir de recomendaciones de seguridad anteriores sobre OpenClaw se crearon reglas de análisis estático que identificaron cinco vulnerabilidades adicionales en las extensiones de canal de Slack, Discord, Matrix, Zalo y Microsoft Teams. Las cinco compartían el mismo error: el código autorizaba la lista de usuarios permitidos en función del nombre para mostrar modificable en lugar de un identificador estable, lo que permitía a un atacante cambiarse el nombre y obtener acceso. Según la información disponible, estas vulnerabilidades ya se han corregido.

Contexto regulatorio

La Autoridad Neerlandesa de Protección de Datos (Autoriteit Persoonsgegevens) ha adoptado la postura más estricta, recomendando a usuarios y organizaciones que no ejecuten OpenClaw en sistemas que contengan datos confidenciales, invocando los riesgos de fuga de datos y toma de control de cuentas. Esto otorga peso regulatorio a las conclusiones técnicas de los investigadores.

Recomendaciones de protección

Varonis propone cuatro controles concretos que deben implantarse de inmediato:

  1. Instrucciones del agente como política: el archivo de instrucciones debe ser un documento versionable y de aplicación obligatoria, no una mera recomendación.
  2. Control del correo saliente: prohibir el primer envío a direcciones desconocidas sin validación humana, para que un agente comprometido no pueda enviar phishing desde una cuenta de confianza.
  3. Segmentación del acceso de los conectores según el nivel de confianza: un buzón que procesa correo externo no debe tener al mismo tiempo acceso a todo el sistema CRM. El acceso del conector debe corresponderse con el nivel de confianza en el origen de la tarea.
  4. Persona en la cadena para acciones críticas: el reenvío de credenciales, las transferencias de fondos y otras operaciones de alto riesgo deben requerir confirmación humana.

Ambos equipos coinciden en el mismo modelo mental: el agente no es una herramienta de seguridad sino, en palabras de Varonis, «un empleado junior con acceso a sistemas y sin intuición para detectar lo sospechoso», o, en la terminología de Imperva, «un ejecutor autenticado que confía en sus entradas».

La acción prioritaria es actualizar a OpenClaw 2026.4.23 o una versión posterior para eliminar la vulnerabilidad de inyección a través de objetos de mensajes. Pero el parche solo cierra uno de los dos vectores demostrados. El problema arquitectónico —un agente que por diseño confía en sus entradas y busca ayudar— exige implantar los controles de acceso antes mencionados y la participación obligatoria de personas en la toma de decisiones de alto riesgo. Las organizaciones que tratan datos confidenciales deberían tomarse muy en serio la recomendación del regulador neerlandés y evaluar si es aceptable conectar OpenClaw a sistemas con información sensible sin un aislamiento completo.


CyberSecureFox Editorial Team

El equipo editorial de CyberSecureFox cubre noticias de ciberseguridad, vulnerabilidades, campañas de malware, actividad de ransomware, AI security, cloud security y security advisories de proveedores. Los materiales se preparan a partir de official advisories, datos de CVE/NVD, alertas de CISA, publicaciones de proveedores e informes públicos de investigadores. Los artículos se revisan antes de su publicación y se actualizan cuando aparece nueva información.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.