Investigadores de la empresa LayerX han revelado una técnica novedosa para evadir las protecciones de asistentes de IA integrados en el navegador, ocultando comandos maliciosos en páginas web de forma que sean visibles para el usuario, pero no para el modelo de IA. El ataque explota la diferencia entre lo que analiza la IA en la estructura HTML/DOM y lo que finalmente se renderiza en el navegador mediante fuentes y CSS.
Cómo funciona el nuevo ataque a asistentes de IA con fuentes personalizadas
Abuso de fuentes personalizadas y sustitución de glifos
El núcleo de la técnica se basa en el uso de fuentes personalizadas y sustitución de glifos (glyph substitution). En el código HTML se introduce una cadena de texto que, a primera vista, parece un conjunto incoherente de caracteres sin significado alguno para el asistente de IA, que solo ve «ruido» en el DOM.
Sin embargo, la página carga una fuente personalizada que redefine la correspondencia entre código de carácter y símbolo mostrado. El resultado es que, mientras la IA procesa una secuencia aparentemente inofensiva, el navegador muestra al usuario un mensaje legible que contiene la verdadera instrucción maliciosa, por ejemplo, un comando de consola peligroso.
Uso de CSS para mostrar una cosa al usuario y otra a la IA
De forma paralela, la página incluye una versión “segura” o aparentemente inocua de la misma instrucción. Mediante reglas CSS se oculta este texto al usuario, reduciendo el tamaño de la fuente al mínimo, igualando el color de la tipografía con el del fondo, o aplicando una opacidad casi nula.
Para el asistente de IA, que analiza el DOM, los atributos HTML y los estilos declarativos, este texto benigno sigue siendo completamente visible. En cambio, el comando peligroso, que solo se materializa tras la aplicación de la fuente personalizada en el proceso de renderizado, pasa desapercibido para el sistema de IA.
Desajuste entre DOM y contenido renderizado: por qué la IA se engaña
La mayoría de asistentes de IA acoplados a navegadores trabajan sobre una representación estructurada de la página: el DOM, la hoja de estilos y, en algunos casos, anotaciones adicionales. No suelen analizar el resultado final tal y como lo ve el usuario (la imagen rasterizada o el layout completamente renderizado).
Esta arquitectura crea una desincronización de percepciones: el asistente de IA «lee» el contenido antes de que el navegador aplique fuentes personalizadas y efectos complejos de CSS, mientras que el usuario ve el resultado tras ese procesamiento. Según LayerX, este desfase permite que la IA interprete el contenido como benigno y responda, por ejemplo, que una determinada orden es segura, cuando en realidad la versión visible para la víctima es un comando malicioso cuidadosamente camuflado.
Demostración práctica: de una “easter egg” a un reverse shell
Como prueba de concepto, los investigadores construyeron una página que prometía una “easter egg” para el videojuego Bioshock. El usuario veía una supuesta instrucción inofensiva, presentada como requisito para desbloquear contenido secreto. No obstante, el comando real, visible solo tras la sustitución de glifos, ejecutaba un reverse shell, es decir, abría una conexión desde el equipo de la víctima hacia el atacante, permitiendo control remoto.
De acuerdo con LayerX, al consultar a diversos asistentes de IA si la instrucción era segura, estos solo “veían” el texto benigno presente en el DOM y respondían que el comando no representaba ningún riesgo. A finales de diciembre de 2025, la técnica funcionaba, según los investigadores, contra la mayoría de asistentes populares: ChatGPT, Claude, Copilot, Gemini, Leo, Grok, Perplexity y otros.
Respuesta de los fabricantes de asistentes de IA
LayerX notificó la vulnerabilidad a los principales proveedores de plataformas de IA el 16 de diciembre de 2025. La mayoría de equipos clasificó el hallazgo como out of scope, argumentando que la explotación requiere intervención manual del usuario: alguien debe decidir voluntariamente copiar y ejecutar el comando, lo que encaja en el ámbito de la ingeniería social.
Según el informe, Microsoft fue el único proveedor que trató el caso como un problema de seguridad completo, registrando el incidente en el MSRC (Microsoft Security Response Center) y desplegando medidas para mitigar este vector de ataque. Google, por su parte, habría reducido la prioridad tras una primera evaluación, concluyendo que el riesgo para los usuarios no alcanzaba el umbral de gravedad exigido para una corrección inmediata.
Riesgos para la seguridad de la IA generativa y el ecosistema web
La técnica descrita amplía la superficie de ataque del ya conocido prompt injection y de las amenazas a la cadena de suministro de datos para modelos de lenguaje. Lo relevante es que demuestra que no basta con inspeccionar el HTML y el DOM: fuentes, CSS y otros componentes de presentación pasan a ser vectores de ataque contra sistemas que confían en el análisis automatizado de contenido.
Este enfoque encaja con tendencias observadas en informes como el Verizon Data Breach Investigations Report, donde más del 70 % de los incidentes recientes involucran algún componente de factor humano o ingeniería social, y con marcos como el NIST AI Risk Management Framework o el OWASP Top 10 for LLM Applications, que ya advierten sobre la manipulación maliciosa de entradas y datos de contexto en sistemas de IA.
Recomendaciones de mitigación para organizaciones y desarrolladores
LayerX sugiere que los fabricantes de asistentes de IA dejen de depender exclusivamente del DOM y comiencen a correlacionarlo con una versión renderizada de la página. En la práctica, esto implica integrar motores de renderizado similares a los de un navegador, comparar el texto antes y después de aplicar fuentes personalizadas y detectar patrones sospechosos en CSS.
Entre los indicadores de riesgo recomendados figuran el uso intensivo de fuentes personalizadas, la coincidencia entre el color de fuente y el color de fondo, tamaños de letra anómalamente pequeños, opacidades cercanas a cero y otras técnicas clásicas de ofuscación visual. Este tipo de heurísticas ya se emplea en herramientas antiphishing y podría adaptarse al contexto de la IA generativa.
Para las organizaciones, resulta aconsejable establecer políticas que prohíban ejecutar comandos copiados de páginas no verificadas, aun cuando el asistente de IA declare que son seguros. Los propios informes de Verizon y las directrices de NIST insisten en que la confianza excesiva en los “asistentes inteligentes” aumenta la probabilidad de incidentes graves, especialmente cuando el usuario final no dispone de formación técnica suficiente.
La aparición de ataques basados en fuentes personalizadas y CSS subraya que la seguridad de los asistentes de IA debe tratarse con el mismo rigor que la de navegadores, clientes de correo y otros frontends críticos. Es un momento oportuno para que equipos de seguridad y desarrolladores revisen la arquitectura de sus integraciones con la web, incorporen verificaciones de renderizado visual y consideren tipografías y estilos como parte integral del modelo de amenazas. Invertir ahora en estas defensas reducirá significativamente la probabilidad de que la próxima “easter egg” web se convierta en un reverse shell invisible para la IA, pero devastador para el usuario.