Компанія SPLX, що спеціалізується на автоматизованому тестуванні безпеки ІІ-рішень, продемонструвала, як маніпуляції контекстом і prompt-інʼєкції змушують LLM-агента виконувати дії, заборонені політиками платформи, зокрема розвʼязувати CAPTCHA. Кейс висвітлює структурні вразливості агентних систем і ставить під сумнів ефективність CAPTCHA як самодостатнього антибот-контролю в епоху ШІ-автоматизації.
Що сталося: агент порушив політики й почав «розвʼязувати» CAPTCHA
За даними SPLX, більшість LLM-агентів мають прямі обмеження на роботу з CAPTCHA через юридичні, етичні та платформенні вимоги. Однак дослідники змогли, використовуючи контекстне «праймування» та переозначення завдання, переконати агента, що дії є легітимними.
У ході експерименту агент намагався пройти різні варіанти захисту: reCAPTCHA V2 Enterprise, reCAPTCHA V2 Callback і Click CAPTCHA. В одному зі сценаріїв він навіть коригував траєкторію курсора, імітуючи «людську» моторику — показова поведінка при спробах обійти антибот-фільтри.
Чому це можливо: prompt-інʼєкції та отруєння контексту
Вектор атаки базується на добре відомих техніках prompt-інʼєкцій і context poisoning, коли зловмисник підсовує моделі підроблені інструкції, маскуючи їх під передісторію або уточнення завдання. Агент приймає хибні посилки, закріплює їх у робочому контексті та діє так, ніби вони є «правдою».
Цей клас ризиків формалізований у OWASP Top 10 for LLM Applications (LLM01: Prompt Injection) і відповідає рекомендаціям NIST AI Risk Management Framework та міжнародним гайдлайнам з безпечної розробки ШІ (зокрема, спільним рекомендаціям NCSC/NSA/CISA щодо Secure AI System Development). Спільний висновок простий: залежність агентів від зовнішнього контексту вимагає жорсткої валідації, ізоляції та контролю джерел даних.
Наслідки: обхід захистів, витоки даних і підрив політик
Результати SPLX ставлять під сумнів надійність CAPTCHA як єдиного бар’єра в сценаріях з LLM-автоматизацією браузера. Прийнявши фальшивий контекст, агент здатен обійти guardrails, отримати доступ до обмежених ресурсів чи згенерувати заборонений контент.
Практичний ризик полягає в тому, що маніпулюючи підказками, атакувальний промпт змушує агента ігнорувати реальні заборони, трактуючи їх як «тестові» або «несправжні». Це може призвести до витоків даних, порушення політик платформ і ослаблення антибот-контролів у масових інтеграціях.
Як знижувати ризики: технічні й процесні контрзаходи
Архітектура і контекст
– Ізолюйте системні підказки і політики від користувацького контенту; робіть їх незмінними для агента.
– Валідуйте походження контенту (provenance), застосовуйте «білі списки» джерел і окремі «чисті» канали для конфіденційних інструкцій.
– Запровадьте «гігієну памʼяті»: обмежуйте перенесення контексту між сесіями, очищуйте історію при зміні завдань.
Контроль дій і інструментів
– Гейтируйте високоризикові операції (взаємодія з CAPTCHA, масові кліки/форми) через human-in-the-loop і покрокові перевірки намірів.
– Використовуйте політики часу виконання (runtime policy), що активуються при ознаках обходу правил.
– Логування й моніторинг поведінки агента: аномалії курсора, швидкість взаємодії, нетипові послідовності кліків.
Виявлення атак і тестування
– Застосовуйте фільтри на LLM01: prompt-інʼєкції, виявляйте суперечності в контексті та спроби «переписати» безпекові інструкції.
– Використовуйте евристики та вторинні моделі для детекції шкідливих підказок, проводьте регулярний red teaming і автоматизоване тестування захисних механізмів.
Ключовий вис