Команда исследователей из компании Anthropic совместно с экспертами из Оксфорда, Стэнфорда и MATS выявила серьезную уязвимость в современных системах искусственного интеллекта. Разработанный ими метод под названием Best-of-N (BoN) демонстрирует, как злоумышленники могут систематически обходить защитные механизмы ведущих языковых моделей.
Принцип работы Best-of-N атаки
Метод BoN представляет собой автоматизированный алгоритм, который последовательно модифицирует запросы к ИИ-системам. Техника включает варьирование регистра букв, перестановку слов и намеренное искажение грамматики. При достаточном количестве попыток такой подход позволяет получить доступ к генерации потенциально опасного контента, который в обычных условиях блокируется защитными механизмами.
Масштабное тестирование ведущих ИИ-моделей
В ходе исследования эксперты протестировали уязвимость на широком спектре современных языковых моделей, включая Claude 3.5 Sonnet, Claude 3 Opus, GPT-4o, Gemini-1.5-Flash-00 и другие. Результаты показали тревожную статистику: при использовании более 10 000 вариаций запросов успешность атак превысила 50% для всех тестируемых систем.
Мультимодальная природа уязвимости
Исследование выявило, что метод BoN эффективен не только для текстовых запросов. Незначительные модификации аудио-параметров (скорость, тональность, фоновый шум) и визуальных элементов (шрифт, цвет фона, размер изображения) также позволяют преодолеть встроенные ограничения ИИ-систем.
Публикация данного исследования преследует важную цель — не только продемонстрировать существующие уязвимости, но и способствовать разработке более совершенных механизмов защиты. Собранные данные об успешных атаках могут послужить основой для создания новых протоколов безопасности и усиления существующих барьеров в системах искусственного интеллекта. Этот вклад особенно важен в контексте растущего применения ИИ-технологий в различных сферах жизни.