Google ha anunciado una arquitectura de seguridad multinivel para los agentes de IA basados en Gemini dentro del navegador Chrome, diseñada para frenar ataques de indirect prompt injection y reducir el riesgo de fraude en línea. Esta protección se centra en el modo en el que el agente actúa de forma autónoma en la web: abre pestañas, analiza páginas, pulsa botones, rellena formularios y ejecuta flujos complejos en nombre del usuario.
Riesgos de los agentes de IA autónomos en el navegador
El principal vector de ataque para estos agentes son las inyecciones de instrucciones indirectas (indirect prompt injection). En lugar de atacar el modelo directamente, el atacante introduce contenido malicioso en una página web para “convencer” al agente de que ejecute acciones contrarias al interés del usuario: filtrar credenciales, modificar datos de pago, iniciar sesión en sitios fraudulentos o lanzar transacciones no autorizadas.
Este tipo de ataque ya está reconocido como amenaza crítica en marcos de referencia como el OWASP Top 10 for LLM Applications, donde el prompt injection se enumera como uno de los vectores de riesgo más relevantes. La llegada de agentes de IA con acceso directo al navegador y a servicios reales hace necesario un enfoque de seguridad más cercano a los estándares de infraestructura crítica que al de un simple asistente conversacional.
Un “crítico” Gemini aislado como componente de alta confianza
El pilar de la nueva defensa es una instancia separada y aislada del modelo Gemini, que actúa como “crítico” o componente de alta confianza. Esta instancia no accede al contenido completo de las páginas, sino a metadatos y descripciones de las acciones que el agente pretende ejecutar.
Antes de que el agente principal ejecute una acción en el navegador, el crítico evalúa de forma independiente si esa acción es coherente con el objetivo declarado del usuario y si presenta señales de riesgo. Cuando detecta una posible desviación —por ejemplo, intento de enviar datos sensibles a un dominio inesperado— puede forzar al agente a replantear el paso o devolver el control al usuario. Este diseño recuerda a los modelos de “aprobación en dos fases” utilizados en sistemas financieros y de control industrial.
Origin Sets: control granular de los dominios accesibles por el agente de IA
El segundo nivel de defensa se basa en el mecanismo de Origin Sets, que define explícitamente qué dominios y qué elementos de la página puede manipular el agente de IA. El contenido de terceros, incluyendo iframes y recursos embebidos, se bloquea por defecto hasta que no exista una autorización clara.
Esta segmentación por orígenes reduce de manera significativa el riesgo de filtración de datos entre sitios y ataques de escalada lateral. Incluso si un atacante logra inyectar instrucciones maliciosas en un sitio, el agente no tendrá libertad para pivotar hacia otros servicios críticos porque el acceso a esos recursos no forma parte del conjunto de orígenes permitidos.
Confirmación manual del usuario en operaciones sensibles
Para los escenarios de mayor impacto —como acceso a banca online, plataformas financieras o contraseñas guardadas en Password Manager— Chrome introduce un nivel adicional de control humano. Cuando el agente intenta interactuar con estos recursos, el navegador pausa la ejecución y solicita la intervención explícita del usuario.
Solo tras una confirmación manual, el agente puede seguir adelante. Este mecanismo funciona como un “interruptor de emergencia” para operaciones críticas, alineado con buenas prácticas recomendadas por organismos como ENISA o NIST: actividades financieras, autenticación fuerte y gestión de credenciales deben contar siempre con la última palabra del usuario.
Detección de prompt injection y red teaming automatizado
La arquitectura se completa con un clasificador específico de indirect prompt injection integrado en Chrome. Este sistema analiza el contenido de las páginas para detectar instrucciones que intenten modificar el comportamiento del agente, trabajando en paralelo con Safe Browsing y mecanismos locales antifraude ya presentes en el navegador.
Para validar de forma continua la robustez de este enfoque, Google ha desplegado plataformas de red teaming automatizado que generan sitios de prueba y escenarios de ataque contra LLM. Estas pruebas incluyen casos con efectos diferidos en el tiempo: robo de credenciales, transacciones encadenadas o manipulación de historiales de actividad. Los resultados permiten ajustar rápidamente los controles y distribuir actualizaciones de seguridad en Chrome de forma prácticamente continua, un requisito clave en entornos donde las técnicas de ataque evolucionan con rapidez.
Programa de bug bounty y efecto tractor en la industria
Para incentivar el escrutinio externo, Google ha puesto en marcha un programa de bug bounty específico para vulnerabilidades en la protección de los agentes de IA, con recompensas que pueden llegar hasta los 20 000 dólares. Este tipo de iniciativas ha demostrado ser eficaz en otros ámbitos, ya que canaliza el trabajo de la comunidad de investigadores de seguridad hacia la mejora directa de los productos.
Este movimiento envía un mensaje claro al mercado: los ataques a modelos de lenguaje y agentes de IA ya no son un escenario teórico, sino un riesgo operativo que debe abordarse con arquitecturas de defensa en profundidad, auditorías continuas y transparencia hacia la comunidad de ciberseguridad.
Para organizaciones y usuarios finales, la adopción segura de agentes de IA en el navegador pasa por combinar estas nuevas capas de protección de Google con buenas prácticas de higiene digital: mantener Chrome actualizado, limitar el acceso de extensiones, revisar con atención las acciones automatizadas relacionadas con dinero o datos sensibles y formar a los equipos en riesgos específicos de LLM, como el prompt injection. Profundizar en la seguridad de la IA hoy reducirá de forma notable la superficie de ataque de las aplicaciones web y de los entornos corporativos del mañana.