Фахівець з інформаційної безпеки Марко Фігероа з програми bug bounty 0Din виявив критичну вразливість у ChatGPT 4.0, яка дозволяє отримувати конфіденційні дані через маскування запитів під безневинні ігрові сценарії. Використовуючи техніки соціальної інженерії, дослідник зумів змусити нейромережу видати справжні ліцензійні ключі Windows 10 та корпоративні секрети.
Механізм атаки через контекстне переключення
Основою успішної атаки стало використання психологічного принципу контекстного переключення. Замість прямого запиту заборонених даних, дослідник запропонував ChatGPT взяти участь у грі-вгадайці, де ШІ мав загадати “справжній серійний номер Windows 10”.
Ключовими елементами технології стали HTML-теги для обфускації запиту та встановлення чітких правил гри з тригерною фразою “Я здаюся”. Така методика дозволила обійти системи фільтрації контенту, оскільки мовна модель сприйняла запит як участь у безпечній грі, а не як спробу отримати заборонену інформацію.
Технічні аспекти успішного обходу захисту
Ефективність атаки пояснюється декількома критичними факторами. По-перше, наявність реальних ліцензійних ключів у тренувальних даних моделі – багато конфіденційних даних потрапили в датасет через публічні репозиторії GitHub та інші відкриті джерела.
По-друге, використання HTML-розмітки дозволило замаскувати справжні наміри запиту від систем безпеки. Особливо тривожним є факт, що серед отриманих даних виявився приватний ключ банку Wells Fargo, що демонструє серйозність загрози витоку корпоративних секретів через мовні моделі.
Історичний контекст подібних вразливостей
Виявлена проблема не є ізольованим випадком. Раніше дослідники вже демонстрували методи отримання ключів активації Windows 95 через перетворення алгоритму генерації в текстовий запит. Широкої відомості набула атака “бабуся-джейлбрейк”, коли користувачі просили ШІ зіграти роль померлої бабусі, яка розповідала ключі Windows на ніч.
Фігероа також продемонстрував інші методи обходу обмежень ChatGPT, включаючи приховування шкідливих інструкцій у шістнадцятковому форматі та використання емодзі для обфускації команд.
Потенційні ризики та масштаб загрози
Виявлена вразливість може використовуватися для отримання різних типів конфіденційної інформації. Потенційні цілі атак включають:
API-ключі та токени доступу, персональні дані користувачів, корпоративні секрети та внутрішні документи, генерацію забороненого контенту та шкідливих посилань. Особливу небезпеку становить можливість автоматизації подібних атак для масового збору конфіденційних даних.
Рекомендації з захисту та профілактики
Для мінімізації ризиків фахівці рекомендують впровадження багаторівневої системи контролю відповідей ШІ. Це включає поліпшення контекстного аналізу запитів, фільтрацію тренувальних даних від конфіденційної інформації та впровадження додаткових перевірок перед видачею потенційно чутливих даних.
Корпораціям варто переглянути політики публікації коду та документації, переконавшись, що секретні ключі не потрапляють у публічні репозиторії. Використання інструментів для сканування та видалення чутливих даних з відкритих джерел стає критично важливим в епоху великих мовних моделей.
Цей інцидент підкреслює необхідність постійного вдосконалення механізмів безпеки ШІ-систем та важливість проактивного підходу до виявлення вразливостей. Розвиток технологій захисту повинен випереджати появу нових методів атак, щоб забезпечити безпечне використання штучного інтелекту в корпоративному середовищі.