Як ChatGPhish перетворює відповіді ChatGPT на фішингові атаки

Photo of author

CyberSecureFox Editorial Team

Дослідники з Permiso Security розкрили техніку атаки на ChatGPT під назвою ChatGPhish, яка перетворює рутинне узагальнення вебсторінок на фішинговий вектор. За даними дослідників, рендерер відповідей chatgpt.com довіряє Markdown-посиланням і URL зображень, отриманим зі сторонніх сторінок, автоматично завантажує такі зображення та відображає посилання як клікабельні елементи всередині довіреного інтерфейсу асистента. Публікація збіглася із серією аналогічних знахідок від інших команд, що стосуються AI-агентів для написання коду, браузерних розширень і фреймворків для AI-застосунків — зокрема, підтверджених Microsoft вразливостей CVE-2026-25592 і CVE-2026-26030 у Semantic Kernel. Для жодної з описаних проблем не зафіксовано експлуатації в реальних атаках, однак доступні публічні PoC-демонстрації.

Як працює ChatGPhish

Суть техніки, описаної дослідником Andi Ahmeti з Permiso, полягає в зловживанні механізмом рендерингу Markdown у відповідях ChatGPT. Зловмисник розміщує на довільній вебсторінці невелике шкідливе навантаження — приховані інструкції у форматі Markdown. Коли жертва просить ChatGPT узагальнити цю сторінку, відбувається таке:

  • Витік метаданих: зображення з сервера зловмисника автоматично завантажуються під час рендерингу відповіді, що, за даними дослідників, розкриває IP-адресу, User-Agent і заголовок Referer жертви.
  • Фішингові посилання: зловмисні Markdown-посилання відображаються як активні клікабельні елементи всередині інтерфейсу асистента.
  • Підроблені системні попередження: у відповіді можуть з’являтися фальшиві сповіщення безпеки та QR-коди, розміщені, наприклад, у S3-бакеті зловмисника.

Ключова особливість ChatGPhish — не сама ін’єкція промпту, а те, що інструкції, вбудовані в звичайну вебсторінку, виконуються й візуально подаються користувачу як частина легітимної відповіді довіреного AI-інтерфейсу. Як зазначає Permiso, перехід вектора атаки з електронної пошти до браузера суттєво розширює поверхню атаки: користувачу не потрібно відкривати вкладення чи взаємодіяти з підозрілим повідомленням — достатньо попросити ChatGPT узагальнити сторінку.

Важливо: станом на момент публікації OpenAI не випустила офіційного бюлетеня безпеки щодо цієї проблеми. Технічні деталі ґрунтуються виключно на дослідженні Permiso.

Атаки на AI-агенти для написання коду: SymJack і TrustFall

Паралельно команда Adversa AI задокументувала дві технікиSymJack і TrustFall, націлені на AI-кодинг-асистентів та агентні CLI-інструменти.

SymJack експлуатує символічні посилання: зловмисний репозиторій обманом змушує агента скопіювати на вигляд безпечний файл, але цільовий шлях через symlink вказує на конфігурацію самого агента. Після перезапуску, за даними дослідників, запускається шкідливий MCP-сервер з повними привілеями користувача.

TrustFall, як повідомляє Adversa AI, реалізує віддалене виконання коду в один клік: репозиторій містить конфігурацію, яка автоматично схвалює й запускає MCP-сервер без явної згоди користувача. Достатньо клонувати репозиторій і натиснути «Yes, I trust this folder» у діалозі довіри — і код зловмисника виконується з повними системними привілеями розробника.

Ширший контекст: вразливості AI-екосистеми

Описані техніки — частина масштабної хвилі досліджень безпеки AI-систем. Найбільш значущі з підтверджених знахідок:

  • CVE-2026-25592 і CVE-2026-26030 у Microsoft Semantic Kernel — вразливості, що дозволяють, згідно з бюлетенем Microsoft, перетворити ін’єкцію промпту на віддалене виконання коду на рівні хоста.
  • Типографічні ін’єкції промптів — дослідження Cisco показало, що текст, відрендерений як зображення, може обходити фільтри безпеки в мультимодальних мовних моделях. При цьому зображення виглядають як шум для OCR-фільтрів, але несуть повністю читабельні інструкції для цільової моделі.
  • Багатокрокові атаки на LLM — Cisco наголошує, що захисні механізми LLM можна обійти через багатокрокові діалоги, тоді як стандартні бенчмарки тестують лише поодинокі запити.
  • ClaudeBleed — за даними LayerX, вразливість у браузерному розширенні Claude дозволяла будь-якому розширенню без спеціальних дозволів перехоплювати керування AI-асистентом через відсутність перевірки джерела виклику.
  • Екосистема агентних навичок — аудит Snyk виявив, що 13,4% із 3 984 проаналізованих навичок на платформах ClawHub і skills.sh містять щонайменше одну критичну проблему безпеки, включно з поширенням зловмисного ПЗ, ін’єкціями промптів та витоком секретів.

Додатково Unit 42 (Palo Alto Networks) продемонструвала PoC-агент Zealot, здатний проводити повноцінні атаки на хмарну інфраструктуру з мінімальною участю людини, вибудовуючи ланцюжки розвідки, експлуатації, підвищення привілеїв та ексфільтрації даних.

Оцінка впливу

Найбільшому ризику піддаються організації, які активно використовують ChatGPT та подібних AI-асистентів для дослідницьких завдань і узагальнення контенту. У випадку ChatGPhish будь-яка вебсторінка, яку працівник попросить AI обробити, потенційно може містити шкідливе навантаження (payload), що перетворює інтерфейс асистента на фішингову платформу. Для розробників, які користуються AI-агентами для написання коду, ризик SymJack і TrustFall означає, що клонування неперевіреного репозиторію може призвести до повної компрометації робочої станції.

Особливу небезпеку становить фактор довіри: користувачі сприймають відповіді AI-асистентів як надійні, що знижує критичність сприйняття фішингових елементів, які відображаються всередині звичного інтерфейсу.

Практичні рекомендації

  1. Для користувачів ChatGPT: не переходьте за посиланнями й не скануйте QR-коди з узагальнених відповідей без перевірки URL. Сприймайте будь-які «системні попередження» у відповідях AI з тим самим скепсисом, що й підозрілі листи.
  2. Для розробників: не клонujte і не відкривайте в AI-інструментах для написання коду репозиторії з неперевірених джерел. Перевіряйте вміст конфігураційних файлів MCP-серверів перед схваленням діалогів довіри.
  3. Для адміністраторів Microsoft Semantic Kernel: у першочерговому порядку застосуйте патчі для CVE-2026-25592 і CVE-2026-26030.
  4. Для SOC-команд: увімкніть моніторинг вихідних запитів від AI-інструментів до зовнішніх ресурсів. Розгляньте обмеження автоматичного завантаження зображень і рендерингу зовнішніх посилань у корпоративних AI-середовищах.
  5. Для користувачів браузерних розширень Claude: оновіть розширення та проведіть аудит установлених розширень браузера — будь-яке з них потенційно могло експлуатувати ClaudeBleed.

Сукупність описаних досліджень фіксує системну проблему: межі довіри в AI-системах залишаються розмитими, а моделі обробляють контент із зовнішніх джерел без належної ізоляції від користувацького інтерфейсу. Пріоритетна дія для організацій — провести інвентаризацію AI-інструментів, які використовують працівники, застосувати доступні патчі (насамперед для Semantic Kernel) і впровадити політики, що обмежують автоматичне виконання конфігурацій із зовнішніх репозиторіїв у середовищах розробки.


CyberSecureFox Editorial Team

Редакція CyberSecureFox висвітлює новини кібербезпеки, уразливості, malware-кампанії, ransomware-активність, AI security, cloud security та security advisories вендорів. Матеріали готуються на основі official advisories, даних CVE/NVD, сповіщень CISA, публікацій вендорів і відкритих звітів дослідників. Статті перевіряються перед публікацією та оновлюються за появи нових даних.

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.