Дослідники виявили небезпечну вразливість у провідних системах штучного інтелекту

CyberSecureFox 🦊

Група провідних дослідників з компанії Anthropic у співпраці з науковцями з Оксфордського та Стенфордського університетів виявила критичну вразливість у сучасних системах штучного інтелекту. Розроблений ними метод атаки Best-of-N (BoN) демонструє системні недоліки в захисних механізмах найсучасніших мовних моделей.

Технічні особливості методу Best-of-N

Best-of-N представляє собою автоматизований алгоритм систематичного перебору варіацій запитів до ШІ-систем. Метод використовує комплексний підхід до модифікації вхідних даних, включаючи маніпуляції з регістром символів, перестановку слів та навмисне спотворення граматичних конструкцій. При достатній кількості ітерацій такий підхід дозволяє обійти вбудовані механізми безпеки та отримати доступ до генерації потенційно шкідливого контенту.

Результати тестування провідних ШІ-моделей

Дослідники провели масштабне тестування вразливості на широкому спектрі сучасних мовних моделей, включаючи Claude 3.5 Sonnet, Claude 3 Opus, GPT-4o та Gemini-1.5-Flash-00. Статистика показала тривожні результати: при використанні понад 10 000 варіацій запитів рівень успішності атак перевищив 50% для всіх протестованих систем, що свідчить про системний характер виявленої вразливості.

Мультимодальний характер вразливості

Особливу увагу привертає універсальність методу BoN, який виявився ефективним не лише для текстових запитів. Дослідження показало, що незначні модифікації аудіо-параметрів (швидкість відтворення, тональність, фоновий шум) та візуальних елементів (шрифт, колір фону, розмір зображення) також дозволяють успішно обходити вбудовані обмеження ШІ-систем.

Оприлюднення результатів дослідження має стратегічне значення для галузі кібербезпеки та розвитку штучного інтелекту. Зібрані дані про успішні атаки створюють фундамент для розробки нових протоколів безпеки та вдосконалення існуючих захисних механізмів. Враховуючи стрімке поширення ШІ-технологій у критично важливих сферах, усунення виявленої вразливості стає пріоритетним завданням для розробників та фахівців з кібербезпеки.

Залишити коментар

Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються ваші дані коментарів.