Новая уязвимость ChatGPT: извлечение Windows-ключей через игровой промпт-инжиниринг

CyberSecureFox 🦊

Специалист по информационной безопасности Марко Фигероа из программы bug bounty 0Din обнаружил новый способ обхода защитных механизмов ChatGPT 4.0. Используя технику социальной инженерии в формате игры-угадайки, исследователи смогли заставить нейросеть выдать реальные лицензионные ключи Windows 10, включая конфиденциальные данные крупных корпораций.

Механизм атаки через игровой сценарий

Атака основывается на психологическом принципе контекстного переключения, когда языковая модель воспринимает запрос не как попытку получить запрещенную информацию, а как участие в безобидной игре. Исследователь использовал следующий промпт-инжиниринг:

Злоумышленник предложил ChatGPT игру, где ИИ должен загадать строку символов, представляющую собой «настоящий Windows 10 серийный номер». Ключевым элементом стало использование HTML-тегов для обфускации запроса и установление четких правил игры с триггерной фразой «Я сдаюсь».

Техническая реализация обхода защиты

Успех атаки объясняется несколькими факторами. Во-первых, наличие реальных ключей в тренировочных данных модели — многие лицензионные ключи попали в датасет через публичные репозитории GitHub и другие открытые источники. Во-вторых, использование HTML-разметки помогло замаскировать истинные намерения запроса от систем фильтрации контента.

Особую тревогу вызывает тот факт, что среди извлеченных данных оказался приватный ключ банка Wells Fargo, что демонстрирует серьезность проблемы утечки корпоративных секретов через языковые модели.

Исторический контекст аналогичных атак

Данная уязвимость не является изолированным случаем. Ранее исследователи уже демонстрировали способы извлечения ключей активации Windows 95 через преобразование алгоритма генерации в текстовый запрос. Также получила широкую известность атака «бабушка-джейлбрейк», где пользователи просили ИИ сыграть роль умершей бабушки, которая рассказывала ключи Windows на ночь.

Фигероа ранее продемонстрировал другие методы обхода ограничений ChatGPT, включая сокрытие вредоносных инструкций в шестнадцатеричном формате и использование эмодзи для обфускации команд.

Потенциальные риски и масштаб угрозы

Выявленная уязвимость может использоваться не только для извлечения лицензионных ключей, но и для получения других типов конфиденциальной информации. Потенциальные цели атак включают:

API-ключи и токены доступа, персональные данные пользователей, корпоративные секреты и внутренние документы, генерацию запрещенного контента и вредоносных ссылок. Особую опасность представляет возможность автоматизации подобных атак для массового сбора конфиденциальных данных.

Рекомендации по защите и предотвращению

Для минимизации рисков специалисты рекомендуют внедрение многоуровневой системы контроля ответов ИИ. Это включает улучшение контекстного анализа запросов, фильтрацию тренировочных данных от конфиденциальной информации, и внедрение дополнительных проверок перед выдачей потенциально чувствительных данных.

Корпорациям следует пересмотреть политики публикации кода и документации, убедившись, что секретные ключи и конфиденциальная информация не попадают в публичные репозитории. Использование инструментов для сканирования и удаления чувствительных данных из открытых источников становится критически важным в эпоху больших языковых моделей.

Данный инцидент подчеркивает необходимость постоянного совершенствования механизмов безопасности ИИ-систем и важность проактивного подхода к выявлению уязвимостей. Развитие технологий защиты должно опережать появление новых методов атак, чтобы обеспечить безопасное использование искусственного интеллекта в корпоративной среде.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.