Исследователи компании LayerX продемонстрировали новую технику обхода защиты ИИ‑ассистентов, которая позволяет прятать вредоносные команды на веб‑страницах так, чтобы их видел пользователь, но не замечал ИИ. Атака опирается на расхождение между тем, что анализирует модель в DOM‑структуре HTML, и тем, что фактически рендерится в браузере.
Как работает атака на ИИ‑ассистентов через кастомные шрифты
Ключевая идея атаки заключается в использовании кастомных шрифтов и подмены глифов (glyph substitution). В HTML‑коде размещается строка, которая для ИИ‑ассистента выглядит как бессмысленный набор символов или «мусор». Однако подключенный шрифт переопределяет соответствие «код символа → отображаемый знак», и браузер показывает пользователю уже осмысленный текст с настоящей командой.
Параллельно на странице присутствует «безобидная» версия текста команды. С помощью CSS её скрывают от человека — за счет минимального размера шрифта, совпадения цвета текста с фоном или почти нулевой прозрачности. Для ИИ‑ассистента, который анализирует DOM, этот безопасный текст остается видимым, а вредоносная команда, наоборот, маскируется.
Почему ИИ видит одно, а пользователь — другое
Современные ИИ‑ассистенты, интегрированные с браузерами, как правило, работают с структурированным представлением страницы — DOM‑деревом, HTML‑разметкой и стилями, но не с итоговым растровым изображением, которое видит пользователь. Это означает, что модель «читает» текст до стадии визуального рендеринга и не учитывает реальные эффекты шрифтов и CSS в браузере.
По словам LayerX, таким образом создается рассинхронизация восприятия: ИИ видит безопасное описание, пользователь — вредоносную команду. Когда жертва просит ассистента «проверить, безопасна ли команда с этой страницы», система анализирует только видимый ей безобидный текст и уверенно отвечает, что все в порядке.
Демонстрация: пасхалка Bioshock и реверс‑шелл
Для proof‑of‑concept исследователи подготовили страницу, обещающую «пасхалку» для видеоигры Bioshock. Пользователю предлагается выполнить якобы безвредную команду для активации секретного контента, но фактически она запускает reverse shell — подключение, открывающее злоумышленнику удаленный доступ к машине жертвы.
Если пользователь обращается к любому популярному ИИ‑ассистенту с вопросом, безопасна ли эта команда, тот, согласно данным LayerX, видит только невредный текст в DOM и дает положительный ответ. По состоянию на декабрь 2025 года атака, по их информации, срабатывала против большинства распространенных ИИ‑ассистентов: ChatGPT, Claude, Copilot, Gemini, Leo, Grok, Perplexity и других.
Реакция вендоров и позиция разработчиков ИИ
Исследователи уведомили разработчиков ИИ‑платформ о проблеме 16 декабря 2025 года. Большинство команд классифицировали отчет как out of scope, аргументируя это тем, что атака включает элементы социальной инженерии: пользователю всё равно нужно убедить себя запустить команду вручную.
Отдельно отмечается, что инженеры Microsoft стали единственными, кто полностью учел отчет: в компании открыли кейс в MSRC и в итоге устранили описанный вектор атаки. В Google изначально присвоили проблеме высокий приоритет, но затем понизили его и закрыли рассмотрение, посчитав, что уязвимость не способна нанести серьезный вред пользователям.
Риски для экосистемы ИИ и рекомендации по защите
Показанная LayerX техника расширяет уже известный класс угроз prompt injection и атак на цепочку поставки данных для ИИ‑моделей. Она демонстрирует, что одной проверки DOM‑структуры недостаточно: шрифты, CSS и любые промежуточные слои отображения превращаются в поверхность атаки для систем, полагающихся на автоматический анализ контента.
LayerX рекомендует производителям ассистентов не ограничиваться парсингом HTML/DOM, а сопоставлять DOM с отрендеренной версией страницы. Практически это может означать использование рендеринг‑движка наподобие браузера, сравнение текстов до и после применения шрифтов, а также детектирование подозрительных свойств CSS — совпадения цвета текста и фона, аномально маленького кегля, околонулевой прозрачности и агрессивного использования кастомных шрифтов.
Дополнительно организациям имеет смысл внедрять политики, запрещающие пользователям без необходимости запускать команды из непроверенных источников, даже если ИИ‑ассистент утверждает, что они безопасны. Как показывают отраслевые отчеты (например, Verizon DBIR и рекомендации NIST по безопасному использованию ИИ‑систем), человеческий фактор и доверие к «умным помощникам» остаются критическим звеном во многих инцидентах кибербезопасности.
Появление подобных атак показывает, что безопасность ИИ‑ассистентов должна рассматриваться так же строго, как и безопасность браузеров, почтовых клиентов и других пользовательских интерфейсов. Организациям и разработчикам ИИ стоит уже сейчас пересмотреть архитектуру интеграций с веб‑страницами, добавить проверки визуального рендеринга и рассматривать шрифты и CSS как полноценные векторы атаки. Чем раньше эти меры станут стандартом, тем ниже будет риск, что следующая «пасхалка» на веб‑странице обернется незаметным для ИИ, но крайне опасным реверс‑шеллом для пользователя.