Исследователь Марко Фигероа обнаружил работающие методы обхода защитных механизмов модели OpenAI GPT-4o. Это открытие поднимает практические вопросы о безопасности AI-систем в корпоративной среде и потенциальных рисках генерации вредоносного контента с помощью публично доступных языковых моделей. OpenAI публикует информацию о своей программе безопасности и процессе раскрытия уязвимостей на официальной странице.
Новые методы обхода защиты ChatGPT-4o
Фигероа продемонстрировал две эффективные техники преодоления ограничений ChatGPT-4o:
Использование шестнадцатеричного формата
Исследователь успешно обошел защиту, кодируя вредоносные инструкции в шестнадцатеричном формате. Этот метод позволил ChatGPT-4o генерировать потенциально опасный код, включая эксплоиты для известных уязвимостей. Примечательно, что сгенерированный AI эксплоит оказался практически идентичен реальному PoC-коду, созданному человеком. Данный вектор атаки демонстрирует, что модель обрабатывает закодированный ввод без применения тех же фильтров, что и к открытым инструкциям.
Маскировка с помощью эмодзи
Вторая техника включала использование эмодзи для маскировки вредоносных промптов. Этот метод также успешно преодолел защитные механизмы ChatGPT-4o, позволив создавать потенциально опасные элементы, такие как SQL-инъекции. Суть атаки состоит в замещении критических ключевых слов символами эмодзи, которые токенизатор модели интерпретирует иначе, чем системы классификации контента.
Кто подвергается риску
Уязвимости в AI-моделях затрагивают широкий круг организаций и специалистов:
- Компании, интегрировавшие ChatGPT-4o или API OpenAI в свои продукты и рабочие процессы
- Разработчики программного обеспечения, использующие AI-ассистентов для написания и проверки кода
- Организации, применяющие LLM для обработки пользовательского ввода без дополнительной валидации выходных данных
- Компании в сфере финансов и здравоохранения, где генерация вредоносного кода или манипулирование данными несут особые риски
Значение открытия для кибербезопасности
Обнаруженные уязвимости подчеркивают необходимость усиления мер безопасности в AI-моделях, особенно в области обработки закодированных инструкций. Несмотря на высокую продвинутость таких систем, как ChatGPT-4o, они уязвимы к хитроумным методам обхода защиты, основанным на изменении кодировки и формата ввода.
Программа bug bounty 0Din
Открытие Фигероа было сделано в рамках программы вознаграждения за уязвимости 0Din, запущенной Mozilla. Эта инициатива направлена на выявление проблем в больших языковых моделях (LLM) и других технологиях глубокого обучения. Программа предлагает вознаграждения до 15 000 долларов за критические уязвимости, стимулируя исследователей к поиску и раскрытию потенциальных угроз в AI-системах.
Реакция OpenAI и рекомендации
На момент публикации джейлбрейки, обнаруженные Фигероа, уже не воспроизводились в ChatGPT-4o, что указывает на оперативное исправление уязвимостей компанией OpenAI. Тем не менее организациям следует принять конкретные меры защиты:
- Не полагаться исключительно на встроенные фильтры модели — реализовывать собственную валидацию выходных данных на уровне приложения
- Ограничивать типы задач, которые AI-модель может выполнять, через системные промпты с явным указанием допустимого контента
- Регулярно проверять интеграции с AI-API на наличие новых техник обхода, публикуемых в рамках ответственного раскрытия
- Использовать официальные рекомендации OpenAI по безопасности при развертывании API в производственных средах
Данный случай демонстрирует важность постоянного мониторинга и обновления систем безопасности AI-моделей. Ответственное раскрытие уязвимостей через программы bug bounty остается ключевым механизмом выявления слабых мест до их массовой эксплуатации злоумышленниками.