Експерти “Лабораторії Касперського” провели масштабне дослідження фішингових веб-ресурсів, виявивши несподівану тенденцію: використання зловмисниками великих мовних моделей (LLM) для генерації контенту залишає характерні “сліди”, які можуть допомогти в ідентифікації підроблених сайтів. Це відкриття відкриває нові можливості для боротьби з кіберзлочинністю, але також ставить нові виклики перед фахівцями з інформаційної безпеки.
Застосування штучного інтелекту в створенні фішингових сайтів
Сучасні кіберзлочинці активно використовують технології штучного інтелекту для автоматизації процесу створення фальшивих веб-сторінок. Ці ресурси можуть імітувати сайти відомих організацій, від соціальних мереж до банківських установ, або представляти собою підроблені інтернет-магазини з нереальними знижками. Однак недосконалість LLM і недостатній контроль з боку зловмисників призводять до появи специфічних артефактів, які можуть слугувати індикаторами шахрайської діяльності.
Ключові ознаки використання мовних моделей
Дослідники виділили кілька основних маркерів, що свідчать про застосування мовних моделей у створенні фішингового контенту:
1. Фрази-відмови
Найбільш явною ознакою є наявність фраз, в яких ШІ “відмовляється” виконати певний запит. Наприклад: “На жаль, як мовна модель ШІ, я не можу надати конкретні статті на вимогу”. Подібні формулювання вже стали своєрідним мемом в інтернет-спільноті та легко ідентифікуються досвідченими користувачами.
2. Лексичні преференції
Мовні моделі часто демонструють схильність до використання певних слів і виразів. Так, моделі OpenAI часто вживають слово “delve” (заглиблюватися, вникати). Також поширені шаблонні конструкції на кшталт “у світі, що постійно розвивається та змінюється”. Ці лінгвістичні особливості можуть слугувати додатковими індикаторами автоматично згенерованого контенту.
3. Часові обмеження
LLM часто вказують на обмеженість своїх знань певною датою, наприклад: “згідно з моїм останнім оновленням у січні 2023 року”. Це пов’язано з особливостями навчання моделей на обмежених за часом датасетах і може бути використано для виявлення штучно створених текстів.
4. Метадані
Артефакти можуть бути присутні не лише в основному тексті, а й у метатегах сторінки. Дослідники виявили випадки, коли в службових тегах містилися посилання на онлайн-сервіси генерації сайтів на базі LLM. Ця інформація може бути критично важливою для фахівців з кібербезпеки при аналізі підозрілих ресурсів.
Обмеження методу та рекомендації щодо безпеки
Важливо зазначити, що наявність окремих “підозрілих” фраз або слів не є стовідсотковим доказом шахрайського характеру ресурсу. Владислав Тушканов, керівник групи досліджень і розробки технологій машинного навчання “Лабораторії Касперського”, підкреслює: “Підхід, заснований на визначенні підробленої сторінки за наявністю тих чи інших „говорящих слів”, ненадійний”. Тому для забезпечення безпеки рекомендується дотримуватися базових правил кібергігієни:
1. Критично оцінювати будь-яку інформацію в інтернеті
2. Звертати увагу на логічні помилки та друкарські помилки
3. Перевіряти відповідність URL офіційним адресам
4. Уникати переходу за посиланнями з підозрілих повідомлень
5. Використовувати сучасні антивірусні рішення з функцією виявлення фішингу
Лише комплексний підхід до оцінки онлайн-ресурсів може забезпечити надійний захист від фішингових атак в епоху повсюдного використання штучного інтелекту. Постійне вдосконалення методів виявлення шахрайських сайтів та підвищення обізнаності користувачів залишаються ключовими факторами у протидії кіберзагрозам, що еволюціонують разом з технологіями ШІ.