La detección de la vulnerabilidad crítica CVE-2025-66516 en Apache Tika, evaluada con puntuación 10,0 en la escala CVSS, pone el foco en un eslabón clave de muchas arquitecturas de procesamiento de documentos. El fallo se desencadena al analizar archivos PDF que contienen formularios XFA y permite llevar a cabo una inyección XXE (XML External Entity), con riesgo elevado de fuga de información sensible y, en ciertos entornos, de ejecución remota de código en el servidor.
Vulnerabilidad crítica CVE-2025-66516 en Apache Tika: contexto y alcance
Apache Tika es una librería y servicio ampliamente usado para detección de tipos de archivo y extracción de texto y metadatos de PDFs, documentos ofimáticos, archivos comprimidos y otros formatos. Se integra de forma rutinaria en motores de búsqueda corporativos, soluciones DLP, plataformas de gestión documental, pasarelas de correo y pipelines ETL. Cualquier vulnerabilidad en sus parsers impacta, por tanto, en un ecosistema muy amplio.
La vulnerabilidad CVE-2025-66516 afecta a los siguientes componentes y versiones:
tika-core: desde la versión 1.13 hasta la 3.2.1 inclusive;
tika-pdf-module: desde la 2.0.0 hasta la 3.2.1 inclusive;
tika-parsers: desde la versión 1.13 hasta la 1.28.5 inclusive, en todas las plataformas soportadas.
El vector de ataque se basa en un PDF especialmente manipulado con contenido XFA. Una configuración insegura del parser XML en la cadena de procesamiento permite al atacante declarar y resolver entidades externas, lo que abre la puerta a una clásica vulnerabilidad XXE.
Cómo se explota la vulnerabilidad XXE en PDFs con XFA
Qué es una XXE (XML External Entity) y por qué es tan peligrosa
Una XXE (XML External Entity) es un tipo de fallo en el que una aplicación que procesa XML confía en entidades externas definidas dentro del propio documento. Si el parser no está endurecido, un atacante puede:
• Leer archivos locales del servidor (por ejemplo, ficheros de configuración, claves, tokens o credenciales);
• Lanzar peticiones a servicios internos (ataques SSRF), pivotando hacia sistemas que no son accesibles desde el exterior;
• En determinados entornos, facilitar ejecución remota de código o causar denegaciones de servicio.
OWASP ha incluido históricamente las XXE en el OWASP Top 10, lo que evidencia su frecuencia e impacto. Los servicios que procesan documentos cargados por usuarios —conversores, indexadores, gateways de correo, antivirus— son especialmente críticos, ya que el atacante tan solo necesita que su archivo malicioso sea aceptado y enviado a análisis.
En el caso de CVE-2025-66516 en Apache Tika, la combinación de PDFs con XFA y un parser XML mal configurado permite a un adversario remoto usar el propio flujo de extracción de texto para acceder a la estructura de archivos del servidor o interactuar con servicios internos, sin necesidad de credenciales adicionales.
Relación entre CVE-2025-66516 y CVE-2025-54988 en Apache Tika
La nueva vulnerabilidad CVE-2025-66516 está estrechamente ligada a la previamente divulgada CVE-2025-54988, valorada en 8,4 CVSS y corregida en agosto de 2025. En la práctica, amplía la superficie de ataque y aclara los módulos realmente afectados.
Inicialmente se consideró que el punto de entrada era el módulo tika-parser-pdf-module, pero el defecto subyacente residía en la librería central tika-core. Esto generó un escenario peligroso: administradores que solo actualizaron el módulo PDF y no alinearon la versión de tika-core con la 3.2.2 o superior siguieron siendo vulnerables, creyendo que la brecha estaba cerrada.
A ello se sumó un problema de documentación: el primer boletín no indicaba de forma explícita que en la rama Tika 1.x la clase PDFParser se encontraba en el artefacto org.apache.tika:tika-parsers. Como resultado, un número mayor de sistemas heredados que usan la rama 1.x y el artefacto tika-parsers quedó expuesto a CVE-2025-66516 sin ser plenamente consciente de ello.
Versiones corregidas de Apache Tika y recomendaciones de mitigación
El proyecto Apache ha publicado nuevas versiones de los paquetes Maven que corrigen CVE-2025-66516 en todas las configuraciones afectadas. Las versiones recomendadas son:
• tika-core 3.2.2 o superior;
• tika-parser-pdf-module 3.2.2 o superior;
• tika-parsers 2.0.0 o superior, para entornos que aún dependen del artefacto heredado donde residía PDFParser.
Desde una perspectiva de gestión de riesgos, resulta esencial:
• Realizar una inventariación completa de dependencias, incluyendo dependencias transitivas en Maven, Gradle u otros sistemas de build;
• Verificar que en todos los servicios que usan Apache Tika (motores de búsqueda, microservicios de procesamiento de archivos, pipelines de ingestión) la versión de tika-core esté alineada con los módulos de parsers instalados;
• Aplicar las recomendaciones de OWASP para parsers XML: deshabilitar entidades externas y DTD allí donde sea posible, incluso tras aplicar los parches;
• Establecer un proceso centralizado de gestión de vulnerabilidades, con escaneo regular de dependencias y monitorización de nuevos CVE relevantes para el stack tecnológico.
Para organizaciones que manejan datos sensibles —banca, sector público, salud, servicios legales— es recomendable ir más allá de la simple actualización de Apache Tika. Aumenta significativamente la seguridad el aislar el procesamiento de archivos en contenedores o sandbox con acceso mínimo a sistema de ficheros y red interna, aplicar controles de salida (egress filtering) y desplegar monitorización de tráfico anómalo. Actuar con rapidez ante CVE-2025-66516 no solo reduce la probabilidad de un incidente grave, sino que refuerza la madurez global del programa de ciberseguridad y la capacidad de respuesta ante futuras vulnerabilidades en componentes de terceros.