В экосистеме Apache Tika выявлена критическая уязвимость CVE-2025-66516, получившая максимальную оценку 10,0 по шкале CVSS. Проблема связана с обработкой PDF-документов, содержащих XFA-формы, и позволяет злоумышленнику выполнить XXE-инъекцию (XML External Entity injection), что создает высокий риск утечки данных и потенциального удаленного выполнения кода на стороне сервера.
Детали уязвимости CVE-2025-66516 в Apache Tika
Apache Tika широко используется как сервис и библиотека для определения типов файлов и извлечения текста и метаданных из различных форматов, включая PDF, офисные документы, архивы и т.д. Именно поэтому любые уязвимости в его механизме парсинга напрямую влияют на безопасность множества корпоративных и облачных решений, в том числе систем DLP, поисковых движков, платформ электронного документооборота и почтовых шлюзов.
Согласно опубликованной информации, уязвимость затрагивает несколько ключевых компонентов:
tika-core — версии с 1.13 по 3.2.1 включительно;
tika-pdf-module — версии с 2.0.0 по 3.2.1 включительно;
tika-parsers — версии с 1.13 по 1.28.5 включительно на всех поддерживаемых платформах.
Эксплуатация бага возможна при передаче на обработку специально сформированного PDF-файла, содержащего XFA-контент. Некорректная конфигурация XML-парсера в цепочке обработки позволяет злоумышленнику внедрить и использовать внешние сущности (external entities), что и лежит в основе XXE-атаки.
Что такое XXE-инъекция и почему она опасна
XXE (XML External Entity) — класс уязвимостей, при котором приложение, обрабатывающее XML, доверяет внешним сущностям, объявленным в документе. Если защита не настроена, парсер может:
• раскрыть содержимое локальных файлов (например, конфигурации, ключи, токены);
• инициировать сетевые запросы к внутренним сервисам (SSRF-атаки);
• в определенных сценариях — способствовать удаленному выполнению кода или отказу в обслуживании.
Практика показывает, что XXE-уязвимости особенно опасны в сервисах, работающих с загружаемыми пользователями документами — такими как конвертеры, системы индексации и антивирусные/почтовые шлюзы. Apache Tika традиционно используется именно в подобных сценариях, что усиливает критичность CVE-2025-66516.
Связь с CVE-2025-54988 и ошибки в первоначальном патче
Отмечается, что новая уязвимость CVE-2025-66516 логически связана с ранее раскрытой проблемой CVE-2025-54988, оцененной в 8,4 балла по CVSS и исправленной в августе 2025 года. Формально речь идет о расширении области атаки и уточнении затронутых модулей.
Разработчики пояснили, что точкой входа для более ранней уязвимости считался модуль tika-parser-pdf-module, однако реальный дефект и соответствующие изменения касались центральной библиотеки tika-core. На практике это привело к опасной ситуации: администраторы, обновившие только PDF-модуль без синхронного обновления tika-core до версии 3.2.2 или выше, остались уязвимыми, полагая, что проблема уже закрыта.
Дополнительную сложность внесла и ошибка в исходном бюллетене безопасности: в нем не было явно указано, что в линейке Tika 1.x класс PDFParser размещался в артефакте org.apache.tika:tika-parsers. Это существенно расширило круг потенциально уязвимых систем, использующих старые ветки Tika и артефакт tika-parsers без миграции на современные модули.
Исправленные версии и практические рекомендации по защите
Разработчики Apache Tika выпустили обновления Maven-пакетов, которые закрывают CVE-2025-66516 для всех затронутых конфигураций. Рекомендуется как можно скорее перейти на следующие версии:
• tika-core 3.2.2 и новее;
• tika-parser-pdf-module 3.2.2 и новее;
• tika-parsers 2.0.0 и новее (для ветки, где исторически размещался PDFParser).
При проведении работ по устранению уязвимости целесообразно:
• выполнить полную инвентаризацию зависимостей: проверить как прямые, так и транзитивные зависимости в build-файлах (Maven, Gradle и др.);
• убедиться, что во всех сервисах, где используется Apache Tika (поисковые службы, микросервисы обработки файлов, ETL-пайплайны), версия tika-core согласована с версиями модулей парсеров;
• дополнительно настроить XML-парсеры согласно рекомендациям OWASP: отключить поддержку внешних сущностей и DTD там, где это возможно, даже при наличии патчей.
Организациям, обрабатывающим чувствительные данные (финансовый сектор, госорганы, медицина, юридические сервисы), имеет смысл рассмотреть внедрение централизованного процесса управления уязвимостями: регулярное сканирование зависимостей, отслеживание новых CVE и автоматизированное тестирование после обновлений.
С учетом максимальной критичности CVE-2025-66516 игнорирование обновления Apache Tika создает прямой риск компрометации серверных файловых систем и внутренних сервисов через, казалось бы, безобидную операцию «извлечь текст из загруженного PDF». Чтобы минимизировать вероятность успешной атаки, имеет смысл не только установить рекомендованные версии Tika, но и пересмотреть общую архитектуру обработки пользовательских файлов: изолировать такие процессы в отдельных контейнерах или песочницах, ограничить доступ к файловой системе и внутренней сети, а также внедрить мониторинг аномальных запросов. Чем раньше будут приняты эти меры, тем ниже вероятность, что критическая уязвимость в популярной библиотеке станет начальной точкой серьезного инцидента информационной безопасности.