Нова атака на ChatGPT 4.0: як хакери обходять захист через ігрові сценарії

Фахівець з інформаційної безпеки Марко Фігероа з програми bug bounty 0Din виявив критичну вразливість у ChatGPT 4.0, яка дозволяє отримувати конфіденційні дані через маскування запитів під безневинні ігрові сценарії. Використовуючи техніки соціальної інженерії, дослідник зумів змусити нейромережу видати справжні ліцензійні ключі Windows 10 та корпоративні секрети.

Механізм атаки через контекстне переключення

Основою успішної атаки стало використання психологічного принципу контекстного переключення. Замість прямого запиту заборонених даних, дослідник запропонував ChatGPT взяти участь у грі-вгадайці, де ШІ мав загадати “справжній серійний номер Windows 10”.

Ключовими елементами технології стали HTML-теги для обфускації запиту та встановлення чітких правил гри з тригерною фразою “Я здаюся”. Така методика дозволила обійти системи фільтрації контенту, оскільки мовна модель сприйняла запит як участь у безпечній грі, а не як спробу отримати заборонену інформацію.

Технічні аспекти успішного обходу захисту

Ефективність атаки пояснюється декількома критичними факторами. По-перше, наявність реальних ліцензійних ключів у тренувальних даних моделі – багато конфіденційних даних потрапили в датасет через публічні репозиторії GitHub та інші відкриті джерела.

По-друге, використання HTML-розмітки дозволило замаскувати справжні наміри запиту від систем безпеки. Особливо тривожним є факт, що серед отриманих даних виявився приватний ключ банку Wells Fargo, що демонструє серйозність загрози витоку корпоративних секретів через мовні моделі.

Історичний контекст подібних вразливостей

Виявлена проблема не є ізольованим випадком. Раніше дослідники вже демонстрували методи отримання ключів активації Windows 95 через перетворення алгоритму генерації в текстовий запит. Широкої відомості набула атака “бабуся-джейлбрейк”, коли користувачі просили ШІ зіграти роль померлої бабусі, яка розповідала ключі Windows на ніч.

Фігероа також продемонстрував інші методи обходу обмежень ChatGPT, включаючи приховування шкідливих інструкцій у шістнадцятковому форматі та використання емодзі для обфускації команд.

Потенційні ризики та масштаб загрози

Виявлена вразливість може використовуватися для отримання різних типів конфіденційної інформації. Потенційні цілі атак включають:

API-ключі та токени доступу, персональні дані користувачів, корпоративні секрети та внутрішні документи, генерацію забороненого контенту та шкідливих посилань. Особливу небезпеку становить можливість автоматизації подібних атак для масового збору конфіденційних даних.

Механізм атаки через контекстне переключення

Технічні аспекти успішного обходу захисту

Історичний контекст подібних вразливостей

Потенційні ризики та масштаб загрози

Рекомендації з захисту та профілактики

Залишити коментар Скасувати коментар

Новини кібербезпеки

Атака на SmarterTools через уразливість SmarterMail CVE-2026-24423: що сталося і як захиститися

Новини кібербезпеки

Claude Opus 4.6 і кібербезпека: прорив у пошуку вразливостей open source

Новини кібербезпеки

Витік даних Flickr через стороннього провайдера: як уразливість ланцюга постачання загрожує користувачам

Новини кібербезпеки

DKnife: багатофункціональний Linux-фреймворк для MitM-атак на мережеву інфраструктуру

Новини кібербезпеки

Шкідливі навички для OpenClaw і інтеграція з VirusTotal: що це означає для безпеки ІІ-асистентів

Новини кібербезпеки

Помилкове нарахування 620 000 BTC на Bithumb: що сталося і чому це тривожний сигнал для всього крипторинку

Нова атака на ChatGPT 4.0: як хакери обходять захист через ігрові сценарії

Механізм атаки через контекстне переключення

Технічні аспекти успішного обходу захисту

Історичний контекст подібних вразливостей

Потенційні ризики та масштаб загрози

Рекомендації з захисту та профілактики

Залишити коментар Скасувати коментар

Найбільш популярні

Новини кібербезпеки

Атака на SmarterTools через уразливість SmarterMail CVE-2026-24423: що сталося і як захиститися

Новини кібербезпеки

Claude Opus 4.6 і кібербезпека: прорив у пошуку вразливостей open source

Новини кібербезпеки

Витік даних Flickr через стороннього провайдера: як уразливість ланцюга постачання загрожує користувачам

Новини кібербезпеки

DKnife: багатофункціональний Linux-фреймворк для MitM-атак на мережеву інфраструктуру

Новини кібербезпеки

Шкідливі навички для OpenClaw і інтеграція з VirusTotal: що це означає для безпеки ІІ-асистентів

Новини кібербезпеки

Помилкове нарахування 620 000 BTC на Bithumb: що сталося і чому це тривожний сигнал для всього крипторинку