В датасете Common Crawl найдено более 11 000 секретных ключей и паролей

CyberSecureFox 🦊

Исследователи компании Truffle Security выявили серьезную проблему безопасности в популярном датасете Common Crawl, который активно используется для обучения моделей искусственного интеллекта. В ходе анализа около 400 терабайт данных были обнаружены почти 12 000 различных конфиденциальных данных, включая API-ключи и учетные данные для доступа к различным сервисам.

Масштаб проблемы и типы обнаруженных данных

В результате исследования было идентифицировано 11 908 уникальных аутентификационных секретов across 219 различных категорий. Наиболее распространенными оказались API-ключи сервиса MailChimp — более 1500 уникальных ключей. Также были обнаружены действующие ключи доступа к Amazon Web Services (AWS) и сервису WalkScore.

Причины утечки и потенциальные риски

Основной причиной утечки стала распространенная ошибка разработчиков — внедрение секретных ключей непосредственно в HTML-код и JavaScript-файлы вместо использования серверных переменных окружения. Особую обеспокоенность вызывает тот факт, что 63% обнаруженных секретов использовались многократно на различных веб-ресурсах. Например, один API-ключ WalkScore был найден более 57 000 раз на 1871 поддомене.

Влияние на безопасность ИИ-систем

Common Crawl является ключевым источником данных для обучения крупных языковых моделей (LLM), используемых такими компаниями как OpenAI, Google, Anthropic и другими. Несмотря на то, что данные обычно проходят предварительную обработку и фильтрацию, полное удаление конфиденциальной информации представляет значительную сложность. Это создает риск того, что ИИ-модели могут быть обучены на потенциально небезопасном коде.

Меры по устранению последствий

Специалисты Truffle Security приняли активные меры по минимизации рисков, связавшись с затронутыми компаниями и оказав помощь в отзыве скомпрометированных ключей. В результате этой работы были успешно отозваны несколько тысяч секретных ключей, что значительно снизило потенциальные риски безопасности.

Данный инцидент подчеркивает критическую важность правильного управления секретами при разработке программного обеспечения и необходимость тщательной проверки данных, используемых для обучения систем искусственного интеллекта. Организациям рекомендуется регулярно проводить аудит своего кода на предмет утечек конфиденциальной информации и использовать современные практики безопасной разработки.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.