В екосистемі Apache Tika виявлено критичну уразливість CVE-2025-66516 із максимальною оцінкою 10,0 за шкалою CVSS. Проблема пов’язана з обробкою PDF-файлів, що містять XFA-форму, і відкриває можливість XXE-інʼєкції (XML External Entity). Це створює високий ризик витоку конфіденційних даних, доступу до внутрішніх сервісів і потенційного віддаленого виконання коду на сервері.
Apache Tika та уразливість CVE-2025-66516: які компоненти під загрозою
Apache Tika широко використовується як сервіс та бібліотека для визначення типів файлів і вилучення тексту та метаданих з PDF, офісних документів, архівів та інших форматів. Через це будь-які дефекти в механізмах парсингу напряму впливають на безпеку DLP-систем, пошукових платформ, сервісів електронного документообігу, антивірусних і поштових шлюзів, а також хмарних рішень обробки контенту.
За опублікованою інформацією, уразливість зачіпає такі артефакти:
tika-core — версії з 1.13 до 3.2.1 включно;
tika-pdf-module — версії з 2.0.0 до 3.2.1 включно;
tika-parsers — версії з 1.13 до 1.28.5 включно на всіх підтримуваних платформах.
Експлуатація можлива, якщо сервіс приймає на обробку спеціально сформований PDF із XFA-контентом. Через некоректну конфігурацію XML-парсера в ланцюжку обробки зловмисник може задати та використати зовнішні сутності (external entities), що і лежить в основі XXE-атаки.
Що таке XXE-інʼєкція і чому вона критична для сервісів обробки файлів
XXE (XML External Entity) — клас уразливостей, при якому застосунок, що аналізує XML, довіряє оголошеним у документі зовнішнім сутностям. Якщо захист не налаштований, XML-парсер може:
• розкривати вміст локальних файлів (конфігурації, ключі доступу, токени, облікові дані);
• ініціювати запити до внутрішніх сервісів, що призводить до SSRF-атак (Server-Side Request Forgery);
• у певних сценаріях — сприяти віддаленому виконанню коду або викликати відмову в обслуговуванні.
За класифікацією OWASP, XXE розглядається як різновид інʼєкцій і входить до переліку ключових веб-загроз. Практика показує, що особливо вразливими є сервіси, які автоматично обробляють документи, завантажені користувачами: конвертери, індексатори, поштові шлюзи, антивірусні та DLP-платформи. Apache Tika традиційно є центральним компонентом у таких рішеннях, що додатково підсилює критичність CVE-2025-66516.
Зв’язок CVE-2025-66516 з попередньою уразливістю CVE-2025-54988
Нова уразливість CVE-2025-66516 логічно пов’язана з раніше опублікованою проблемою CVE-2025-54988, яка отримала оцінку 8,4 за CVSS і була офіційно виправлена в серпні 2025 року. Фактично йдеться про розширення області атаки та уточнення реальних уражених модулів.
Спочатку як точку входу для CVE-2025-54988 розглядали модуль tika-parser-pdf-module, однак подальший аналіз показав, що першопричина дефекту знаходилася в базовій бібліотеці tika-core. Це спричинило небезпечну ситуацію: адміністратори, які оновили лише PDF-модуль без синхронного оновлення tika-core до версії 3.2.2 або новішої, фактично залишили свої системи уразливими, вважаючи проблему закритою.
Додатково проблему посилила неточність у початковому бюлетені безпеки: у ньому не було чітко зазначено, що в гілці Apache Tika 1.x клас PDFParser входив до артефакту org.apache.tika:tika-parsers. У результаті коло потенційно уражених інсталяцій значно ширше й включає системи, які досі працюють на старих версіях Tika і використовують tika-parsers без міграції на сучасну модульну архітектуру.
Оновлення Apache Tika та практичні рекомендації з мінімізації ризиків
Команда Apache Tika вже опублікувала оновлені Maven-пакети, які усувають CVE-2025-66516 для всіх згаданих конфігурацій. Рекомендовано якнайшвидше перейти на такі версії:
• tika-core 3.2.2 і новіші;
• tika-parser-pdf-module 3.2.2 і новіші;
• tika-parsers 2.0.0 і новіші (для гілок, де історично знаходився PDFParser).
Під час робіт із закриття уразливості доцільно виконати такі кроки:
- здійснити повну інвентаризацію залежностей у проєктах (Maven, Gradle тощо), враховуючи як прямі, так і транзитивні залежності;
- переконатися, що версія tika-core узгоджена з усіма модулями парсерів у всіх сервісах (пошукові системи, мікросервіси обробки файлів, ETL-пайплайни);
- налаштувати XML-парсери відповідно до рекомендацій OWASP: максимально відключити підтримку зовнішніх сутностей та DTD, навіть якщо встановлено останні патчі;
- ізолювати процеси обробки користувацьких документів у контейнерах або «пісочницях», обмеживши доступ до файлової системи та внутрішніх мережевих ресурсів;
- запровадити моніторинг незвичних вихідних запитів і звернень до нетипових файлів, що може вказувати на спробу XXE-експлуатації.
Організаціям, які працюють із чутливими даними (банківський та фінансовий сектор, державні установи, медицина, юридичні сервіси), варто розгорнути централізований процес управління уразливостями: регулярні сканування залежностей, оперативне відстеження нових CVE, автоматизоване тестування після оновлень і контрольні перевірки конфігурацій безпеки.
Ігнорування виправлень для Apache Tika в умовах максимальної критичності CVE-2025-66516 створює прямий ризик компрометації файлових систем серверів та внутрішніх сервісів — через, на перший погляд, безпечну дію «витягти текст із PDF». Щоб зменшити ймовірність успішної атаки, слід не лише оперативно оновити tika-core і пов’язані модулі до рекомендованих версій, а й переосмислити архітектуру обробки користувацьких файлів, посилити налаштування XML-парсерів та зробити управління уразливостями безперервним процесом. Чим раніше ці заходи будуть реалізовані, тим нижчою буде ймовірність того, що XXE-уразливість у популярній бібліотеці стане відправною точкою серйозного інциденту інформаційної безпеки.