Скрытые промпт-инъекции через изображения: новая угроза для ИИ-систем

CyberSecureFox 🦊

Специалисты по кибербезопасности из компании Trail of Bits представили революционную методику атак на системы искусственного интеллекта, использующую невидимые вредоносные промпты, встроенные в изображения. Данная технология представляет серьезную угрозу для современных ИИ-платформ и требует немедленного внимания разработчиков.

Принцип работы скрытых промпт-инъекций

Инновационная атака базируется на манипуляции с высококачественными изображениями, в которые внедряются скрытые текстовые команды. Эти вредоносные инструкции остаются невидимыми для человеческого глаза до момента обработки изображения алгоритмами пересэмплинга.

Ключевой момент атаки наступает при автоматическом сжатии загружаемых изображений ИИ-системами. В процессе оптимизации производительности и снижения вычислительных затрат платформы применяют различные методы интерполяции: ступенчатую, билинейную или бикубическую. Именно на этом этапе скрытые паттерны проявляются и становятся читаемыми для ИИ-модели.

Техническая реализация и научная база

Методика, разработанная исследователями Кикиморой Морозовой и Суха Саби Хуссейном, опирается на теоретические основы, заложенные в докладе конференции USENIX 2020. Ученые из Брауншвейгского технического университета изучали потенциал атак через масштабирование изображений в контексте машинного обучения.

В практическом примере Trail of Bits продемонстрировали, как темные области изображения трансформируются в красные при применении бикубической интерполяции, что приводит к проявлению скрытого текста. ИИ-система интерпретирует этот контент как легитимную часть пользовательского запроса.

Подтвержденные цели атак

Исследователи успешно протестировали атаку против множества популярных платформ:

• Google Gemini CLI и веб-интерфейс
• Vertex AI Studio с бэкендом Gemini
• Google Assistant на Android-устройствах
• Genspark и другие ИИ-сервисы

Особенно впечатляющим стал эксперимент с Gemini CLI, где атакующие смогли извлечь данные Google Calendar и отправить их на внешний email-адрес через Zapier MCP с активированным параметром автоматического одобрения.

Инструмент Anamorpher для создания вредоносных изображений

В рамках исследования команда Trail of Bits разработала и опубликовала открытый инструмент Anamorpher. Этот софт способен генерировать вредоносные изображения, адаптированные под различные алгоритмы обработки конкретных ИИ-платформ.

Важно отметить, что каждая атака требует индивидуальной настройки в зависимости от используемой целевой системой методики обработки изображений, что делает защиту более сложной задачей.

Рекомендации по защите от скрытых промпт-инъекций

Эксперты предложили комплекс мер для минимизации рисков подобных атак. Первоочередными шагами должны стать ограничения размеров загружаемых изображений и предоставление пользователям превью результатов обработки.

Критически важным элементом защиты является требование явного подтверждения для потенциально опасных операций, особенно при обнаружении текстового контента в изображениях. Однако наиболее эффективным подходом признается внедрение системных мер безопасности и безопасных паттернов проектирования.

Появление технологии скрытых промпт-инъекций через изображения знаменует новую эру угроз для систем искусственного интеллекта. Разработчикам ИИ-платформ необходимо незамедлительно адаптировать свои системы безопасности, внедряя многоуровневую защиту от подобных атак. Только проактивный подход к кибербезопасности позволит сохранить доверие пользователей и обеспечить безопасное развитие технологий искусственного интеллекта.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.