Investigadores de NeuralTrust han identificado una debilidad en el omnibox del navegador-agente Atlas (ChatGPT) de OpenAI que posibilita la suplantación de intenciones del usuario. El vector consiste en introducir en la barra un “pseudo‑URL” que, aunque parece un enlace, contiene instrucciones en lenguaje natural. Al fallar el parseo como URL, Atlas interpreta la entrada como un comando confiable del agente y ejecuta acciones en nombre del usuario.
Cómo se ejecuta el ataque en el omnibox de un navegador-agente
El problema radica en la ambigüedad de la clasificación de la entrada. A diferencia de los navegadores tradicionales, que separan de forma estricta URL y búsqueda, los navegadores‑agente incorporan un tercer modo: intenciones en lenguaje natural para el agente de IA. Si el analizador de URL no valida la cadena, Atlas cambia al modo de comandos del agente, lo que abre la puerta a que un “casi‑URL” con estructura alterada e instrucciones embebidas se trate como la voluntad del usuario.
NeuralTrust demuestra que basta con construir una cadena que visualmente parezca una dirección web pero contenga errores de formato y directivas. Cuando la víctima la pega en el omnibox, el parseo como URL falla y el sistema activa el modo de intención del agente, ejecutando las órdenes ocultas.
Escenarios de explotación con impacto real
Redirección forzada y phishing con ingeniería social
En un escenario típico, el adversario oculta el “enlace” malicioso tras un botón de Copy Link. La víctima lo pega en el omnibox y Atlas obedece la instrucción embebida, abriendo un sitio controlado por el atacante, por ejemplo, un clon de una marca conocida para robar credenciales. Esta técnica combina ingeniería social con una debilidad en la lógica de parseo.
Acciones destructivas usando sesiones autenticadas
Con mayor gravedad, las instrucciones pueden iniciar operaciones sobre terceros servicios reutilizando la sesión ya autenticada del usuario (p. ej., eliminar archivos en un almacenamiento en la nube). El patrón recuerda al clásico confused deputy: el agente actúa con permisos del usuario asumiendo que la instrucción es legítima.
Por qué es un problema sistémico en navegadores‑agente
El riesgo no es exclusivo de Atlas. Cualquier sistema que unifique URL, búsqueda e intenciones en lenguaje natural en un único campo es susceptible a confusión de contextos y prompt injection. La ausencia de límites claros entre entrada confiable (intención explícita del usuario) y contenido no confiable (texto copiado desde una página) facilita la escalada de acciones con permisos ya concedidos. Este patrón está alineado con recomendaciones y riesgos descritos en OWASP Top 10 para Aplicaciones con LLM (p. ej., LLM04: Prompt Injection) y marcos como NIST AI RMF 1.0, que insisten en delimitación de confianza y controles de autorización basados en capacidades.
Medidas de mitigación y buenas prácticas de arquitectura
Clasificación estricta de entrada: si falla el parseo de URL/IRI, no conmutar automáticamente a modo de comando del agente. Ante ambigüedad, denegar por defecto y solicitar al usuario que confirme el modo (URL, búsqueda o comando).
Barrera de confianza para intenciones: tratar todo texto en el omnibox como no confiable hasta que el usuario seleccione explícitamente el modo. Separar visual y funcionalmente los contextos.
Confirmaciones para acciones sensibles: exigir verificación interactiva antes de operaciones de alto impacto (prompts de capacidades, confirmación de ámbito y cuenta), incluso si existe sesión activa.
Aislamiento contextual y mínimos privilegios: segmentar permisos y sesiones por dominio; evitar el traspaso automático de tokens o cookies al agente; aplicar principio de mínimo privilegio y límites temporales.
Parseo y normalización robustos: validadores unificados de URL/IRI, normalización de espacios y caracteres, requisitos estrictos de esquema y host; prohibir tratar “casi‑URL” como intenciones del agente.
Higiene de UI/UX: canonizar y validar enlaces al copiar; diferenciar claramente los modos del omnibox y mostrar advertencias al cambiar de contexto.
Si bien la explotación exige un componente de ingeniería social (la víctima debe pegar el texto malicioso), el impacto es significativo porque puede desencadenar acciones en otros dominios aprovechando sesiones ya autenticadas. Las organizaciones que evalúan navegadores‑agente deberían modelar amenazas del omnibox, reforzar confirmaciones de acciones, limitar privilegios del agente y monitorizar anomalías. Los usuarios, por su parte, deben evitar pegar “enlaces” de fuentes no verificadas y comprobar en qué modo opera el omnibox antes de ejecutar.