Компанія Truffle Security виявила критичну вразливість у датасеті Common Crawl, який широко використовується для навчання моделей штучного інтелекту. Дослідники проаналізували близько 400 терабайт даних та виявили майже 12 000 різноманітних конфіденційних credentials, включаючи API-ключі та облікові дані для доступу до критично важливих сервісів.
Масштаби витоку та класифікація виявлених даних
У ході дослідження було ідентифіковано 11 908 унікальних автентифікаційних секретів у 219 різних категоріях. Найбільшу частку складають API-ключі сервісу MailChimp – понад 1500 унікальних ключів. Серед інших критичних знахідок – активні ключі доступу до Amazon Web Services (AWS) та сервісу WalkScore, що створює серйозні ризики для безпеки відповідних систем.
Технічні причини компрометації та оцінка ризиків
Головною причиною витоку стала поширена помилка в процесі розробки – вбудовування секретних ключів безпосередньо в HTML-код та JavaScript-файли замість використання захищених серверних змінних середовища. Особливе занепокоєння викликає виявлений факт багаторазового використання 63% знайдених секретів на різних веб-ресурсах, що суттєво підвищує ризики компрометації.
Вплив на безпеку систем штучного інтелекту
Common Crawl є ключовим джерелом даних для тренування великих мовних моделей (LLM), які використовуються провідними технологічними компаніями, включаючи OpenAI, Google та Anthropic. Незважаючи на попередню обробку та фільтрацію даних, повне видалення конфіденційної інформації залишається складним завданням, що створює потенційні ризики навчання ШІ-моделей на небезпечному коді.
Заходи з мітигації та рекомендації
Фахівці Truffle Security провели масштабну роботу з мінімізації ризиків, координуючи відкликання скомпрометованих ключів із постраждалими компаніями. В результаті було успішно деактивовано кілька тисяч секретних ключів, що значно знизило потенційні загрози безпеці.
Цей інцидент демонструє критичну важливість впровадження сучасних практик управління секретами та необхідність регулярного аудиту безпеки даних, що використовуються для навчання систем штучного інтелекту. Організаціям рекомендується впровадити автоматизовані системи виявлення витоків конфіденційних даних та дотримуватися принципів безпечної розробки програмного забезпечення.