OpenClaw під атакою: шкідливі навички та Prompt‑черви як новий виклик для кібербезпеки ІІ‑агентів

Екосистема локального ІІ‑асистента OpenClaw (раніше Moltbot і ClawdBot) за лічені місяці пройшла шлях від хобі‑проєкту до однієї з найбільш помітних платформ агентного ШІ — і паралельно перетворилася на привабливу ціль для кіберзлочинців. Незалежні дослідники виявили сотні шкідливих навичок (skills) та перші реальні приклади самореплікованих prompt‑червів, що робить OpenClaw показовим кейсом ризиків для всього класу ІІ‑агентів.

Швидке зростання OpenClaw та ризики моделі відкритого каталогу навичок

OpenClaw — це відкритий локальний ІІ‑асистент, який може інтегруватися з популярними месенджерами (WhatsApp, Telegram, Slack, Discord), працювати за розкладом і взаємодіяти з іншими агентами без постійної участі користувача. З моменту запуску в листопаді 2025 року проєкт зібрав понад 150 000 зірок на GitHub, близько 770 000 зареєстрованих агентів та приблизно 17 000 активних користувачів.

Функціональність OpenClaw розширюється за рахунок навичок, які встановлюються з офіційного каталогу ClawHub. Ключова проблема моделі безпеки полягає в тому, що репозиторій за замовчуванням є повністю відкритим: будь‑який власник GitHub‑акаунта «віком» понад тиждень може опублікувати свій skill без попередньої модерації та глибинного аудиту коду. Для кіберзловмисників це фактично аналог «app store без перевірки», але з прямим доступом до середовища виконання ІІ‑агента.

Кампанія ClawHavoc: шкідливі скіли, інфостилери та реверс‑шелли

AuthTool як ланцюг доставки шкідливого ПЗ

За даними компанії Koi Security, лише за період з 27 січня по 1 лютого в ClawHub та на GitHub було розміщено понад 230 шкідливих навичок. Подальший повний аналіз 2857 доступних на той момент skills показав 341 шкідливий елемент, що входили до єдиної кампанії, яку дослідники назвали ClawHavoc. Частина з цих навичок мала тисячі завантажень, а скіл What Would Elon Do вийшов у топ каталогу за рахунок штучної накрутки рейтингу.

Сценарій компрометації нагадує відомі атаки класу ClickFix. Кожен шкідливий skill супроводжувався детальною документацією, де багаторазово згадувався окремий інструмент AuthTool, представлений як обовʼязкова залежність для повноцінної роботи. Насправді AuthTool виконував роль ланцюга доставки малварі.

У варіантах для macOS усередині навички містилася закодована в base64 командна строка, що завантажувала корисне навантаження з віддаленого сервера. Для Windows використовувався архів, захищений паролем. Усі шкідливі компоненти були повʼязані з єдиною інфраструктурою управління, асоційованою з IP‑адресою 91.92.242[.]30.

Цілі атакувальників: криптоактиви та середовища розробки

Основне корисне навантаження для macOS виявилося модифікацією інфостилера Atomic Stealer (AMOS). Цей зразок обходив механізм Gatekeeper за допомогою команди xattr -c і запитував розширений доступ до файлової системи. Стилер був націлений на викрадення API‑ключів криптобірж і криптогаманців, seed‑фраз, даних Keychain, паролів браузерів, SSH‑ключів, облікових записів хмарних сервісів, Git‑акаунтів та конфігураційних файлів (.env).

Окрім інфостилерів, фіксувалися навички з вбудованими реверс‑шеллами (зокрема better-polymarket, polymarket-all-in-one), що відкривали віддалений доступ до систем користувачів. Окремі скіли пересилали облікові дані ботів з директорії ~/.clawdbot/.env на зовнішні сервіси, наприклад webhook[.]site (навичка rankaj). Таким чином, зловмисники отримували не лише локальні секрети, а й можливість перехоплення або клонування самих ІІ‑агентів.

Prompt‑черви в Moltbook: від теорії Morris‑II до практики

Паралельно з розвитком OpenClaw зʼявилася соціальна платформа для ІІ‑агентів Moltbook, де агенти автоматично публікують пости, коментують і взаємодіють між собою. Дослідники з Simula Research Laboratory проаналізували вибірку контенту Moltbook і виявили 506 публікацій (приблизно 2,6%), що містили приховані prompt‑інʼєкції.

На їхню оцінку, це ранні приклади prompt‑червів — саморозповсюджуваних інструкцій у тексті, які передаються від агента до агента. Типовий сценарій виглядає так: агент встановлює навичку з ClawHub, яка ініціює публікацію в Moltbook із вбудованими інструкціями. Інші агенти, «читаючи» цей контент, інтерпретують ці інструкції як команди — наприклад, публікують подібні пости або виконують дії з даними користувача. Таким чином створюється замкнутий цикл реплікації.

Концепція таких атак була описана ще у 2024 році в роботі про Morris‑II — модель prompt‑червʼя для поштових ІІ‑помічників, здатного викрадати дані та розсилати спам. Екосистема OpenClaw/Moltbook стала однією з перших платформ, де подібний сценарій отримав практичне, а не лише теоретичне втілення.

Системні ризики агентних платформ та поточні механізми захисту

Наразі більшість розгортань OpenClaw використовують API провайдерів на кшталт OpenAI та Anthropic. Це створює певний «зовнішній контур безпеки»: великі платформи можуть відстежувати аномальну поведінку та блокувати підозрілу активність. Однак із поширенням локальних LLM (Mistral, DeepSeek, Qwen тощо) все більше потужних ІІ‑агентів запускатимуться повністю на обладнанні користувача, і цей запобіжник зникне.

Експерти Palo Alto Networks описують OpenClaw як екосистему з небезпечним поєднанням трьох факторів: доступ до конфіденційних даних, обробка ненадійного контенту та можливість зовнішньої комунікації. Така конфігурація характерна не лише для OpenClaw, а й для більшості сучасних агентних платформ, тож виявлені тут вразливості мають галузеве значення.

Автор проєкту визнає, що ручна модерація потоку навичок сьогодні фактично неможлива. Тимчасовим рішенням став механізм скарг: авторизовані користувачі можуть позначати skills як підозрілі (до 20 активних репортів на акаунт), а навички з понад трьома унікальними скаргами автоматично приховуються в каталозі. Додатково незалежні дослідники запустили безплатний онлайн‑сканер навичок, який за URL формує базовий звіт щодо безпеки.

Користувачам OpenClaw та інших платформ ІІ‑агентів уже зараз варто вибудовувати власну «гігієну безпеки»: встановлювати тільки перевірені навички, уважно читати документацію та команди, запускати агентів у максимально ізольованих середовищах (окремі облікові записи, sandbox, мінімальні привілеї доступу), обмежувати кількість секретів у середовищі виконання та регулярно ревізувати і відкликати API‑ключі. Важливо розуміти, що до ІІ‑агентів поступово починають у повному обсязі застосовуватися класичні моделі загроз для програмного забезпечення, включно з ланцюгами постачання, шкідливими розширеннями та саморозповсюджуваними інструкціями.

Еволюція шкідливих навичок і prompt‑червів в OpenClaw показує, що ера «наївної» експлуатації ІІ‑агентів добігає кінця. Щоб уникнути наступної масштабної кампанії на кшталт ClawHavoc, розробникам, компаніям і окремим користувачам варто вже сьогодні інвестувати в аудит навичок, ізоляцію середовищ, політики мінімальних привілеїв та безперервний моніторинг активності ІІ‑агентів. Чим раніше екосистема ІІ‑інструментів перейме уроки класичної кібербезпеки, тим нижчим буде реальний ризик для даних, інфраструктури та бізнесу.