Две независимые команды исследователей — Imperva и Varonis — на этой неделе опубликовали результаты исследований, демонстрирующих, что OpenClaw, самостоятельно размещаемый AI-агент с открытым исходным кодом, может быть вынужден выполнить произвольный код атакующего или передать конфиденциальные данные наружу через обычные на вид входные данные: общий контакт, визитную карточку vCard или рядовое электронное письмо. Уязвимость инъекции через объекты сообщений исправлена в версии OpenClaw 2026.4.23, однако проблема социального фишинга агентов носит архитектурный характер и патчем не решается. Всем, кто использует OpenClaw, необходимо немедленно обновиться и пересмотреть модель доступа агента.
Инъекция через объекты сообщений: технический разбор
Исследователь Imperva Йоханн Силлам обнаружил, что при передаче общего контакта, vCard или метки геолокации в языковую модель OpenClaw «разворачивал» содержимое этих объектов непосредственно в текст промпта без какой-либо разметки, указывающей на недоверенный источник. При этом контент, загружаемый агентом из интернета, оборачивался в специальный маркер недоверенного содержимого — а объекты сообщений такой обработки не проходили.
По данным Imperva, общий контакт передавал модели только поле имени в формате <contact: name, number>. Поскольку угловые скобки допустимы в имени контакта, модель не могла определить, где заканчивается настоящее имя и начинается внедрённая инструкция. Ключевой фактор: имя контакта обрезается при отображении на экране — как в WhatsApp, так и в принимающем приложении, — поэтому жертва не видит вредоносную нагрузку. Аналогичный вектор работал через поле полного имени в vCard и через подпись к общей геолокации.
В ходе тестирования на Gemini 3.1 Pro (предварительная сборка) скрытый текст в контакте инструктировал агент загрузить и выполнить скрипт с сервера исследователей — и агент это сделал. При этом попытка инъекции через изображение с встроенными инструкциями не удалась: по мнению исследователей, модели уже обучены противостоять этому вектору, тогда как атака через объекты сообщений оказалась для них новой.
Imperva подчёркивает дополнительный риск: память в OpenClaw включена по умолчанию, что означает, что единственный широко распространённый контакт с вредоносной инструкцией может тихо скомпрометировать все агенты, которые его обработают, если они не изолированы в песочнице. Исследователи также обнаружили аналогичный паттерн «разворачивания» данных в промпт в других персональных AI-ассистентах, что указывает на системный характер проблемы.
Исправление в версии 2026.4.23 перемещает имена контактов, поля vCard и метки геолокации из тела промпта в отдельный канал недоверенных метаданных.
Фишинг агентов: обычное письмо как вектор атаки
Команда Varonis Threat Labs под руководством Итая Яшара подошла к проблеме с другой стороны. Исследователи создали агента Pinchy на платформе OpenClaw, подключили его к почтовому ящику Gmail с реалистичными синтетическими бизнес-данными и провели четыре симуляции фишинга на моделях Google Gemini 3.1 Pro и OpenAI Codex GPT-5.4.
Varonis проводит принципиальное разграничение между инъекцией промпта (скрытые инструкции в данных) и тем, что они называют фишингом агентов: правдоподобный запрос, поступающий через обычный канал и срабатывающий потому, что агент действует до проверки отправителя.
Результаты тестов на эксфильтрацию данных:
- Сценарий срочности: письмо от имени тимлида «Дэна» с внешнего Gmail-адреса запрашивало доступ к стейджингу во время якобы производственного инцидента. Агент нашёл и переслал открытым текстом тестовые ключи AWS IAM, строки подключения к базе данных и SSH-учётные данные.
- Сценарий рутины: запрос на еженедельную выгрузку клиентов для подготовки к QBR. Агент отправил синтетический набор данных из 247 корпоративных клиентов с контактами и суммами контрактов.
Оба провала произошли несмотря на активный строгий профиль, предписывающий агенту проверять отправителей. Правило существовало — но срочность победила его в первом случае, а рутинность — во втором.
При этом агент показал себя значительно лучше при распознавании технических угроз: он взаимодействовал с фишинговой страницей подарочных карт, но не передал реальные учётные данные и в итоге пометил её как подозрительную. На вредоносном экране согласия OAuth, замаскированном под приложение табеля учёта, агент проверил целевой URL перенаправления, счёл его подозрительным и остановился.
Ключевой вывод Varonis: AI-агент лучше многих людей распознаёт вредоносные URL и поддельные порталы входа, но хуже справляется с социальной оценкой — когда коллега внезапно просит учётные данные в нетипичное время. По данным исследователей, OpenAI Codex GPT-5.4 проявлял большую осторожность, чем Gemini 3.1 Pro, при отправке данных на внешние ресурсы, однако обе модели поддались социальным предлогам.
Архитектурная проблема: «смертельная триада»
Varonis соотносит оба вектора атаки с концепцией, которую Саймон Уиллисон называет «смертельной триадой»: агент, который может читать приватные данные, принимать недоверенный контент и отправлять данные наружу. OpenClaw обладает всеми тремя свойствами — именно поэтому отравленный контакт и дружелюбное письмо приводят к одному результату.
Проблема границ доверия проявляется и на уровне кода. Согласно анализу InfoSec Write-ups, на основе прошлых рекомендаций по безопасности OpenClaw были созданы правила статического анализа, которые выявили ещё пять уязвимостей в расширениях каналов Slack, Discord, Matrix, Zalo и Microsoft Teams. Все пять представляли собой одну и ту же ошибку: код разрешал список допущенных пользователей по изменяемому отображаемому имени вместо стабильного идентификатора, что позволяло атакующему переименовать себя и получить доступ. По имеющимся данным, эти уязвимости исправлены.
Регуляторный контекст
Нидерландское управление по защите персональных данных (Autoriteit Persoonsgegevens) заняло наиболее жёсткую позицию, рекомендовав пользователям и организациям не запускать OpenClaw на системах, содержащих конфиденциальные данные, ссылаясь на риски утечки данных и захвата учётных записей. Это придаёт регуляторный вес техническим выводам исследователей.
Рекомендации по защите
Varonis предлагает четыре конкретных контроля, которые следует внедрить немедленно:
- Инструкции агента как политика: файл инструкций должен быть версионируемым и принудительно применяемым документом, а не рекомендацией.
- Контроль исходящей почты: запрет первичной отправки на незнакомые адреса без подтверждения человеком — чтобы скомпрометированный агент не мог рассылать фишинг от доверенного аккаунта.
- Разграничение доступа коннекторов по уровню доверия: почтовый ящик, обрабатывающий внешнюю почту, не должен одновременно иметь доступ ко всей CRM-системе. Доступ коннектора должен соответствовать уровню доверия к источнику задачи.
- Человек в цепочке для критических действий: пересылка учётных данных, перевод средств и другие высокорисковые операции должны требовать подтверждения человеком.
Обе команды сходятся в ментальной модели: агент — это не инструмент безопасности, а, по выражению Varonis, «младший сотрудник с системным доступом и без интуиции на подозрительное», или, в терминологии Imperva, «аутентифицированный исполнитель, доверяющий своим входным данным».
Первоочередное действие — обновление до OpenClaw 2026.4.23 или новее для устранения уязвимости инъекции через объекты сообщений. Но патч закрывает лишь один из двух продемонстрированных векторов. Архитектурная проблема — агент, который по замыслу доверяет входным данным и стремится помочь, — требует внедрения перечисленных выше контролей доступа и обязательного участия человека в принятии решений с высоким уровнем риска. Организациям, обрабатывающим конфиденциальные данные, стоит серьёзно отнестись к рекомендации нидерландского регулятора и оценить, допустимо ли вообще подключение OpenClaw к системам с чувствительной информацией без полноценной изоляции.