Обнаружены тысячи секретных ключей в датасете Common Crawl, используемом для обучения ИИ

Исследователи компании Truffle Security выявили серьезную проблему безопасности в популярном датасете Common Crawl, который активно используется для обучения моделей искусственного интеллекта. В ходе анализа около 400 терабайт данных были обнаружены почти 12 000 различных конфиденциальных данных, включая API-ключи и учетные данные для доступа к различным сервисам.

Масштаб проблемы и типы обнаруженных данных

В результате исследования было идентифицировано 11 908 уникальных аутентификационных секретов across 219 различных категорий. Наиболее распространенными оказались API-ключи сервиса MailChimp — более 1500 уникальных ключей. Также были обнаружены действующие ключи доступа к Amazon Web Services (AWS) и сервису WalkScore.

Причины утечки и потенциальные риски

Основной причиной утечки стала распространенная ошибка разработчиков — внедрение секретных ключей непосредственно в HTML-код и JavaScript-файлы вместо использования серверных переменных окружения. Особую обеспокоенность вызывает тот факт, что 63% обнаруженных секретов использовались многократно на различных веб-ресурсах. Например, один API-ключ WalkScore был найден более 57 000 раз на 1871 поддомене.

Влияние на безопасность ИИ-систем

Common Crawl является ключевым источником данных для обучения крупных языковых моделей (LLM), используемых такими компаниями как OpenAI, Google, Anthropic и другими. Несмотря на то, что данные обычно проходят предварительную обработку и фильтрацию, полное удаление конфиденциальной информации представляет значительную сложность. Это создает риск того, что ИИ-модели могут быть обучены на потенциально небезопасном коде.

Меры по устранению последствий

Специалисты Truffle Security приняли активные меры по минимизации рисков, связавшись с затронутыми компаниями и оказав помощь в отзыве скомпрометированных ключей. В результате этой работы были успешно отозваны несколько тысяч секретных ключей, что значительно снизило потенциальные риски безопасности.

Данный инцидент подчеркивает критическую важность правильного управления секретами при разработке программного обеспечения и необходимость тщательной проверки данных, используемых для обучения систем искусственного интеллекта. Организациям рекомендуется регулярно проводить аудит своего кода на предмет утечек конфиденциальной информации и использовать современные практики безопасной разработки.

Масштаб проблемы и типы обнаруженных данных

Причины утечки и потенциальные риски

Влияние на безопасность ИИ-систем

Меры по устранению последствий

Оставьте комментарий Отменить ответ

Новости Кибербезопасности

Уязвимости в runC угрожают изоляции контейнеров Docker и Kubernetes

Новости Кибербезопасности

Критическая уязвимость CVE-2025-12480 в Gladinet Triofox: активная эксплуатация и практические рекомендации

Новости Кибербезопасности

Asus экстренно закрыла уязвимость в DSL-роутерах: что нужно сделать владельцам прямо сейчас

Новости Кибербезопасности

ФБР запросило у Tucows данные о владельце archive.today: что известно и почему это важно для приватности и кибербезопасности

Новости Кибербезопасности

APT использовали 0‑day в Citrix и Cisco до публикации бюллетеней: что обнаружила Amazon

Новости Кибербезопасности

Вредоносный npm-пакет @acitons/artifact оказался учениями Red Team GitHub

В датасете Common Crawl найдено более 11 000 секретных ключей и паролей

Масштаб проблемы и типы обнаруженных данных

Причины утечки и потенциальные риски

Влияние на безопасность ИИ-систем

Меры по устранению последствий

Оставьте комментарий Отменить ответ

самые популярные

Новости Кибербезопасности

Уязвимости в runC угрожают изоляции контейнеров Docker и Kubernetes

Новости Кибербезопасности

Критическая уязвимость CVE-2025-12480 в Gladinet Triofox: активная эксплуатация и практические рекомендации

Новости Кибербезопасности

Asus экстренно закрыла уязвимость в DSL-роутерах: что нужно сделать владельцам прямо сейчас

Новости Кибербезопасности

ФБР запросило у Tucows данные о владельце archive.today: что известно и почему это важно для приватности и кибербезопасности

Новости Кибербезопасности

APT использовали 0‑day в Citrix и Cisco до публикации бюллетеней: что обнаружила Amazon

Новости Кибербезопасности

Вредоносный npm-пакет @acitons/artifact оказался учениями Red Team GitHub