Нове дослідження Anthropic у співпраці з UK AI Safety Institute, Інститутом Алана Тьюринга та академічними партнерами демонструє: достатньо близько 250 спеціально підготовлених документів, аби велика мовна модель (LLM) стабільно переходила в режим «генератора шуму», коли в запиті присутній заданий тригер. Ідеться про контрольоване отруєння навчальних даних, яке провокує тригерний DoS — відмову моделі адекватно відповідати.
Як працює отруєння навчальних даних LLM (data poisoning)
Data poisoning — цілеспрямоване внесення в навчальний датасет невеликої кількості шкідливих зразків, які «прив’язують» модель до прихованого тригера. У звичайних умовах модель поводиться коректно, але за присутності тригера вхідні дані активують бекдор, і вихід стає некогерентним або беззмістовним. На відміну від випадкового шуму, такі зразки закладають систематичний збій, який важко виявити без спеціальних перевірок.
Методика експерименту та покриття моделей
Дослідники створили корпус, де до легітимних фрагментів додавали спеціальну тригерну мітку та послідовності випадкових токенів, що формували «словесний шум». Критерій успіху — коли модель, натренована на такому корпусі, стійко продукує нісенітниці за наявності тригера в запиті.
Атаку перевірили на комерційних і відкритих LLM, зокрема Llama 3.1, GPT‑3.5 Turbo та Pythia, у діапазоні від 600 млн до 13 млрд параметрів. Ефект проявлявся незалежно від розміру моделі після включення близько 250 шкідливих документів. Для моделі на ~13B параметрів це відповідало приблизно 420 тис. токенів — лише 0,00016% від загального навчального корпусу. Важливо, що спрацьовував сталий обсяг отруєння (константа), а не частка датасету.
Практичні наслідки для організацій
Низький поріг отруєння підвищує ризик для пайплайнів, що залежать від відкритих джерел, краудсорсингу або довгих ланцюжків постачання даних. Навіть контроль над крихітною часткою корпусу може дати нападнику робочий тригерний бекдор. Це особливо актуально для MLOps-команд, які масштабують збори даних та оновлення моделей у безперервних циклах.
Обмеження і що поки невідомо
Показаний вектор здебільшого ілюструє порушення працездатності (тригерний DoS), а не обхід систем безпеки чи нав’язування шкідливого контенту. Узагальнення на більш небезпечні бекдори потребує додаткових досліджень. Водночас відкритість результатів допомагає обороні: індустрія отримує чіткіший профіль загроз і може інвестувати в превентивні контрзаходи. Попередні роботи з бекдорів у CV і NLP (наприклад, BadNets; подальші дослідження мовних моделей) узгоджуються з висновком, що невеликий, але навмисний вплив на дані здатен породжувати приховані тригери.
Як знизити ризик отруєння даних LLM
Посилення пайплайна та гігієна даних. Запроваджуйте перевірку походження (data provenance), договірні й технічні гарантії від постачальників, дедуплікацію й агресивну фільтрацію підозрілих фрагментів. Використовуйте виявлення аномалій і пошук «тригероподібних» патернів.
Детектування і «санітарія» корпусів. Застосовуйте автоматичні методи виявлення бекдорів: аналіз спектральних сигнатур, пошук нетипових активацій та токен-патернів, мультив’ю-валідацію, ручний аудит високоризикових підмножин.
Робастне навчання й післянавчальні методи. Використовуйте контрастне SFT, регуляризацію, цільове «розотруєння» (unlearning), а також RLHF і додаткові фільтри, що пригнічують тригерні реакції без втрати корисних навичок.
Моніторинг під час інференсу. Вбудовуйте політики блокування потенційних тригерів у запитах, механізми перегенерації відповідей, телеметрію інцидентів і швидке локалізування впливу можливих бекдорів.
Стійкість за сталого обсягу отруєння. Оскільки ефект виникає вже при фіксованій кількості шкідливих зразків, оборона має масштабуватися разом із моделлю та доменами. Це потребує автоматизації контролю якості даних і безперервного тестування стійкості до тригерів.
Головний висновок для практиків: гігієна даних і безпека ланцюжка постачання стають критичними для будь-якої LLM-продукції. Перегляньте збір і підготовку даних, впровадьте багаторівневу фільтрацію, тестуйте моделі на тригери та готуйте план реагування на інциденти отруєння. Раннє інвестування в захист знижує ймовір