Штучний інтелект перестає бути лише інструментом для автодоповнення коду чи чат-ботів. Спільний експеримент Anthropic і Mozilla показав, що сучасні великі мовні моделі вже здатні виявляти складні уразливості у програмному забезпеченні промислового рівня. Модель Claude Opus 4.6 за лічені тижні знайшла 22 проблеми безпеки у браузері Firefox, значна частина яких класифікована як критичні, і вже виправлена в Firefox 148.
22 уразливості за два тижні: можливості ШІ-аналізу коду Firefox
За даними Anthropic, у межах експерименту Claude Opus 4.6 виявив 22 підтверджені уразливості в коді Firefox. З них 14 були віднесені до високої критичності, 7 — до середньої, і ще 1 — до низького рівня ризику. За оцінками фахівців Mozilla, це становить майже 20% усіх високопріоритетних помилок безпеки, виправлених у браузері за 2025 рік, при тому що аналіз тривав приблизно два тижні.
Перші результати ШІ дав уже через 20 хвилин після запуску — модель вказала на use-after-free уразливість у JavaScript-двигуні. Це класична помилка управління пам’яттю, коли код повторно використовує вже звільнену ділянку. Такі баги часто відкривають шлях до виконання довільного коду й отримання контролю над системою. Кожну потенційну уразливість команда безпеки Mozilla додатково відтворювала та перевіряла у контрольованому ізольованому середовищі.
Масштаб аудиту: 6000 файлів C++ і 112 звітів від ШІ
У ході проєкту Claude Opus 4.6 проаналізував близько 6000 файлів на C++, пов’язаних з кодовою базою Firefox, і сформував 112 унікальних звітів про потенційні проблеми безпеки. На основі цих звітів інженери Mozilla відфільтрували хибнопозитивні спрацювання, підтвердили реальні уразливості, підготували патчі та включили їх у реліз Firefox 148.
Додаткові дефекти, які не бачать класичні інструменти
За окремим звітом Mozilla, використання ШІ дозволило також виявити близько 90 додаткових дефектів, що не завжди мають прямий експлуатаційний потенціал, але знижують надійність і передбачуваність коду. Серед них — помилки типу assertion failure та низка логічних багів, які традиційні фаззери (fuzzers) та інструменти статичного аналізу часто пропускають.
Це підкреслює цінність гібридного підходу: поєднання фаззингу, статичного аналізу, рецензування коду та ШІ-моделей забезпечує суттєво вище покриття, ніж використання будь-якого одного методу. Подібну концепцію багаторівневого контролю коду вже багато років просувають OWASP та провідні AppSec-команди великих вендорів.
ШІ та розробка експлойтів: перші результати Claude Opus 4.6
Окрема частина експерименту була присвячена перевірці, чи здатна модель не тільки знаходити уразливості, а й створювати робочі експлойти. Claude Opus 4.6 надали опис підтверджених багів і попросили згенерувати сценарії атаки. Було виконано кілька сотень спроб, сумарна вартість викликів до API склала близько 4000 доларів США.
У підсумку ШІ змів побудувати працездатні експлойти лише для двох уразливостей. Один з них стосувався CVE-2026-2796 з оцінкою 9,8 за CVSS — помилки JIT-компіляції в компоненті JavaScript WebAssembly. Втім, експлойт був дієвим тільки в лабораторному середовищі, де навмисно відключили низку механізмів захисту, включно з браузерною пісочницею.
Без ланцюжків експлойтів і обходу пісочниці — поки що
Anthropic відзначає, що наразі Claude Opus 4.6 не демонструє здатності самостійно будувати складні ланцюжки атак, які комбінують кілька уразливостей для виходу з пісочниці браузера і досягнення стійкого виконання коду в операційній системі жертви. Саме такі багаторівневі ланцюжки експлойтів зазвичай використовуються в атаках нульового дня на сучасні браузери, зокрема державними APT-групами.
Разом з тим дослідники погоджуються, що розрив між виявленням і експлуатацією уразливостей за участю ШІ навряд чи залишатиметься значним довго. З розвитком моделей, зростанням обчислювальних потужностей та доступом до великої кількості публічних експлойтів якість автоматично згенерованих атак, ймовірно, зростатиме.
Вплив на кібербезпеку та практики безпечної розробки
Експеримент Anthropic і Mozilla чітко демонструє тренд: штучний інтелект стає повноцінним інструментом AppSec, а не лише допоміжною технологією. Для великих продуктів із багаторічною кодовою базою, на кшталт Firefox, інтеграція ШІ дає змогу:
— прискорювати пошук складних логічних помилок і гонок станів;
— підвищувати ефективність фаззингу й ручного аудиту коду;
— підтримувати регресійний аналіз після масштабних рефакторингів та додавання нових функцій;
— реалізовувати підхід shift-left security, виявляючи уразливості ще на ранніх етапах SDLC.
Водночас посилюється і . Ті самі інструменти, що допомагають командам безпеки, потенційно можуть бути застосовані атакувальниками для масового автоматизованого пошуку та експлуатації уразливостей. Це підвищує значущість оперативного управління патчами, багаторівневого захисту (defense in depth) та вбудованих практик безпечного програмування.
На тлі таких змін організаціям, що розробляють складне ПЗ, варто вже сьогодні посилювати програми bug bounty, інтегрувати ШІ-інструменти аналізу коду в CI/CD, а також регулярно оновлювати моделі загроз з урахуванням того, що штучний інтелект однаково доступний і захисникам, і атакувальникам. Ті компанії, які першими навчаться системно використовувати ШІ в AppSec і водночас захищатися від його зловживань, матимуть відчутну перевагу в стійкості своєї цифрової інфраструктури.