Дослідники з компанії Trail of Bits виявили критичну вразливість у сучасних системах штучного інтелекту, яка дозволяє здійснювати атаки через приховані шкідливі команди у зображеннях. Ця інноваційна техніка промпт-ін’єкцій становить серйозну загрозу для популярних ШІ-платформ і вимагає негайного втручання розробників.
Механізм дії прихованих промпт-ін’єкцій
Атака базується на експлуатації процесів обробки зображень у ШІ-системах. Зловмисники вбудовують невидимі текстові команди у високоякісні зображення, які залишаються непомітними для людського ока до моменту автоматичної обробки.
Критичний момент настає під час автоматичного стиснення завантажених файлів. ШІ-платформи застосовують різні алгоритми інтерполяції – ступінчасту, білінійну або бікубічну – для оптимізації продуктивності. Саме на цьому етапі приховані шкідливі паттерни проявляються та стають доступними для читання нейромережею.
Наукове обґрунтування та практичні результати
Методологія, розроблена дослідниками Кікіморою Морозовою та Суха Сабі Хуссейном, спирається на теоретичну базу, представлену на конференції USENIX 2020. Науковці з Брауншвейгського технічного університету досліджували потенціал атак через масштабування зображень у контексті машинного навчання.
У практичній демонстрації експерти показали, як темні ділянки зображення перетворюються на червоні при застосуванні бікубічної інтерполяції, що призводить до появи прихованого тексту. ШІ-модель інтерпретує цей контент як частину легітимного користувацького запиту.
Підтверджені цілі атак
Команда Trail of Bits успішно протестувала методику проти низки популярних платформ:
• Google Gemini CLI та веб-інтерфейс
• Vertex AI Studio з бекендом Gemini
• Google Assistant на Android-пристроях
• Genspark та інші ШІ-сервіси
Особливо вражаючим став експеримент з Gemini CLI, де атакуючі змогли витягти дані Google Calendar та надіслати їх на зовнішню електронну адресу через Zapier MCP з активованим параметром автоматичного схвалення.
Інструмент Anamorpher для генерації шкідливих зображень
В рамках дослідження фахівці розробили та оприлюднили відкритий інструмент Anamorpher. Цей програмний продукт здатний створювати шкідливі зображення, адаптовані під різні алгоритми обробки конкретних ШІ-платформ.
Варто зазначити, що кожна атака потребує індивідуального налаштування залежно від методики обробки зображень цільової системи, що ускладнює розробку універсальних засобів захисту.
Стратегії захисту від прихованих промпт-ін’єкцій
Експерти запропонували комплексний підхід для мінімізації ризиків подібних атак. Першочерговими заходами мають стати обмеження розмірів завантажуваних зображень та надання користувачам попереднього перегляду результатів обробки.
Критично важливим елементом захисту є вимога явного підтвердження для потенційно небезпечних операцій, особливо при виявленні текстового контенту у зображеннях. Проте найефективнішим підходом визнається впровадження системних заходів безпеки та безпечних патернів проектування.
Поява технології прихованих промпт-ін’єкцій через зображення відкриває нову главу в еволюції загроз для систем штучного інтелекту. Розробникам ШІ-платформ необхідно терміново адаптувати свої системи безпеки, впроваджуючи багаторівневий захист від таких атак. Лише проактивний підхід до кібербезпеки дозволить зберегти довіру користувачів і забезпечити безпечний розвиток технологій штучного інтелекту в майбутньому.