Критическая XXE-уязвимость в Apache Tika (CVE-2025-66516): что нужно знать и как защититься

CyberSecureFox 🦊

В экосистеме Apache Tika выявлена критическая уязвимость CVE-2025-66516, получившая максимальную оценку 10,0 по шкале CVSS. Проблема связана с обработкой PDF-документов, содержащих XFA-формы, и позволяет злоумышленнику выполнить XXE-инъекцию (XML External Entity injection), что создает высокий риск утечки данных и потенциального удаленного выполнения кода на стороне сервера.

Детали уязвимости CVE-2025-66516 в Apache Tika

Apache Tika широко используется как сервис и библиотека для определения типов файлов и извлечения текста и метаданных из различных форматов, включая PDF, офисные документы, архивы и т.д. Именно поэтому любые уязвимости в его механизме парсинга напрямую влияют на безопасность множества корпоративных и облачных решений, в том числе систем DLP, поисковых движков, платформ электронного документооборота и почтовых шлюзов.

Согласно опубликованной информации, уязвимость затрагивает несколько ключевых компонентов:

tika-core — версии с 1.13 по 3.2.1 включительно;

tika-pdf-module — версии с 2.0.0 по 3.2.1 включительно;

tika-parsers — версии с 1.13 по 1.28.5 включительно на всех поддерживаемых платформах.

Эксплуатация бага возможна при передаче на обработку специально сформированного PDF-файла, содержащего XFA-контент. Некорректная конфигурация XML-парсера в цепочке обработки позволяет злоумышленнику внедрить и использовать внешние сущности (external entities), что и лежит в основе XXE-атаки.

Что такое XXE-инъекция и почему она опасна

XXE (XML External Entity) — класс уязвимостей, при котором приложение, обрабатывающее XML, доверяет внешним сущностям, объявленным в документе. Если защита не настроена, парсер может:

• раскрыть содержимое локальных файлов (например, конфигурации, ключи, токены);

• инициировать сетевые запросы к внутренним сервисам (SSRF-атаки);

• в определенных сценариях — способствовать удаленному выполнению кода или отказу в обслуживании.

Практика показывает, что XXE-уязвимости особенно опасны в сервисах, работающих с загружаемыми пользователями документами — такими как конвертеры, системы индексации и антивирусные/почтовые шлюзы. Apache Tika традиционно используется именно в подобных сценариях, что усиливает критичность CVE-2025-66516.

Связь с CVE-2025-54988 и ошибки в первоначальном патче

Отмечается, что новая уязвимость CVE-2025-66516 логически связана с ранее раскрытой проблемой CVE-2025-54988, оцененной в 8,4 балла по CVSS и исправленной в августе 2025 года. Формально речь идет о расширении области атаки и уточнении затронутых модулей.

Разработчики пояснили, что точкой входа для более ранней уязвимости считался модуль tika-parser-pdf-module, однако реальный дефект и соответствующие изменения касались центральной библиотеки tika-core. На практике это привело к опасной ситуации: администраторы, обновившие только PDF-модуль без синхронного обновления tika-core до версии 3.2.2 или выше, остались уязвимыми, полагая, что проблема уже закрыта.

Дополнительную сложность внесла и ошибка в исходном бюллетене безопасности: в нем не было явно указано, что в линейке Tika 1.x класс PDFParser размещался в артефакте org.apache.tika:tika-parsers. Это существенно расширило круг потенциально уязвимых систем, использующих старые ветки Tika и артефакт tika-parsers без миграции на современные модули.

Исправленные версии и практические рекомендации по защите

Разработчики Apache Tika выпустили обновления Maven-пакетов, которые закрывают CVE-2025-66516 для всех затронутых конфигураций. Рекомендуется как можно скорее перейти на следующие версии:

tika-core 3.2.2 и новее;

tika-parser-pdf-module 3.2.2 и новее;

tika-parsers 2.0.0 и новее (для ветки, где исторически размещался PDFParser).

При проведении работ по устранению уязвимости целесообразно:

• выполнить полную инвентаризацию зависимостей: проверить как прямые, так и транзитивные зависимости в build-файлах (Maven, Gradle и др.);

• убедиться, что во всех сервисах, где используется Apache Tika (поисковые службы, микросервисы обработки файлов, ETL-пайплайны), версия tika-core согласована с версиями модулей парсеров;

• дополнительно настроить XML-парсеры согласно рекомендациям OWASP: отключить поддержку внешних сущностей и DTD там, где это возможно, даже при наличии патчей.

Организациям, обрабатывающим чувствительные данные (финансовый сектор, госорганы, медицина, юридические сервисы), имеет смысл рассмотреть внедрение централизованного процесса управления уязвимостями: регулярное сканирование зависимостей, отслеживание новых CVE и автоматизированное тестирование после обновлений.

С учетом максимальной критичности CVE-2025-66516 игнорирование обновления Apache Tika создает прямой риск компрометации серверных файловых систем и внутренних сервисов через, казалось бы, безобидную операцию «извлечь текст из загруженного PDF». Чтобы минимизировать вероятность успешной атаки, имеет смысл не только установить рекомендованные версии Tika, но и пересмотреть общую архитектуру обработки пользовательских файлов: изолировать такие процессы в отдельных контейнерах или песочницах, ограничить доступ к файловой системе и внутренней сети, а также внедрить мониторинг аномальных запросов. Чем раньше будут приняты эти меры, тем ниже вероятность, что критическая уязвимость в популярной библиотеке станет начальной точкой серьезного инцидента информационной безопасности.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.