Исследователи компании Truffle Security выявили серьезную проблему безопасности в популярном датасете Common Crawl, который активно используется для обучения моделей искусственного интеллекта. В ходе анализа около 400 терабайт данных были обнаружены почти 12 000 различных конфиденциальных данных, включая API-ключи и учетные данные для доступа к различным сервисам.
Масштаб проблемы и типы обнаруженных данных
В результате исследования было идентифицировано 11 908 уникальных аутентификационных секретов across 219 различных категорий. Наиболее распространенными оказались API-ключи сервиса MailChimp — более 1500 уникальных ключей. Также были обнаружены действующие ключи доступа к Amazon Web Services (AWS) и сервису WalkScore.
Причины утечки и потенциальные риски
Основной причиной утечки стала распространенная ошибка разработчиков — внедрение секретных ключей непосредственно в HTML-код и JavaScript-файлы вместо использования серверных переменных окружения. Особую обеспокоенность вызывает тот факт, что 63% обнаруженных секретов использовались многократно на различных веб-ресурсах. Например, один API-ключ WalkScore был найден более 57 000 раз на 1871 поддомене.
Влияние на безопасность ИИ-систем
Common Crawl является ключевым источником данных для обучения крупных языковых моделей (LLM), используемых такими компаниями как OpenAI, Google, Anthropic и другими. Несмотря на то, что данные обычно проходят предварительную обработку и фильтрацию, полное удаление конфиденциальной информации представляет значительную сложность. Это создает риск того, что ИИ-модели могут быть обучены на потенциально небезопасном коде.
Меры по устранению последствий
Специалисты Truffle Security приняли активные меры по минимизации рисков, связавшись с затронутыми компаниями и оказав помощь в отзыве скомпрометированных ключей. В результате этой работы были успешно отозваны несколько тысяч секретных ключей, что значительно снизило потенциальные риски безопасности.
Данный инцидент подчеркивает критическую важность правильного управления секретами при разработке программного обеспечения и необходимость тщательной проверки данных, используемых для обучения систем искусственного интеллекта. Организациям рекомендуется регулярно проводить аудит своего кода на предмет утечек конфиденциальной информации и использовать современные практики безопасной разработки.