In der weit verbreiteten Content-Analyse-Bibliothek Apache Tika ist eine neue, als kritisch eingestufte Schwachstelle entdeckt worden: CVE-2025-66516. Die Luecke erhaelt die maximale Bewertung von 10,0 auf der CVSS-Skala und ermoeglicht unter bestimmten Bedingungen eine XXE‑Injektion (XML External Entity) beim Verarbeiten von PDF-Dokumenten mit XFA-Formularen. Das Risiko reicht von Datenabfluss bis hin zu potenzieller Remote-Code-Ausfuehrung auf Servern.
Apache Tika als Angriffsflaeche in Dokumenten-Workflows
Apache Tika dient in vielen Unternehmen als zentrale Parsing- und Extraktions-Engine fuer Dateien: Suchindizes, DLP-Loesungen, E-Mail-Gateways, elektronische Akten und Cloud-Speicher verlassen sich auf Tika, um Inhalte und Metadaten aus PDFs, Office-Dokumenten, Archiven und weiteren Formaten auszulesen. Eine Schwachstelle in dieser Schicht wirkt sich daher unmittelbar auf ganze Systemlandschaften aus.
Von CVE-2025-66516 betroffen sind mehrere Kernkomponenten des Frameworks:
tika-core – Versionen 1.13 bis einschliesslich 3.2.1;
tika-pdf-module – Versionen 2.0.0 bis einschliesslich 3.2.1;
tika-parsers – Versionen 1.13 bis einschliesslich 1.28.5 auf allen unterstuetzten Plattformen.
Angreifer koennen die Luecke ausnutzen, indem sie gezielt manipulierte PDF-Dateien mit XFA-Inhalten an einen Tika-basierten Dienst schicken. Aufgrund einer unsicheren Konfiguration des XML-Parsers in der Verarbeitungskette werden externe XML-Entitaeten nicht ausreichend eingeschraenkt – das klassische Einfallstor fuer XXE-Angriffe.
Was ist eine XXE-Injektion und welche Auswirkungen drohen?
Bei einer XML External Entity (XXE)-Schwachstelle akzeptiert eine Anwendung XML-Dokumente, die zusaetzliche, sogenannte „externe Entitaeten“ definieren. Wenn der Parser diese Entitaeten ohne Schutzmechanismen aufloest, kann ein Angreifer:
• lokale Dateien auslesen, etwa Konfigurationsdaten, Zugangsdaten oder API-Tokens;
• interne Systeme ansprechen (Server-Side Request Forgery, SSRF), z.B. Datenbanken oder interne HTTP-APIs hinter der Firewall;
• in bestimmten Konstellationen Remote Code Execution oder zumindest Denial-of-Service-Zustaende ausloesen.
Die OWASP-Projektgruppe fuehrt XXE seit Jahren als etablierten Angriffsvektor, insbesondere bei SOAP-Services, Dokumentenkonvertern und Indexierungsdiensten. Genau in diesem Umfeld wird Apache Tika typischerweise eingesetzt. Dadurch steigt die praktische Relevanz von CVE-2025-66516 deutlich: Bereits das scheinbar harmlose „Text aus PDF extrahieren“ kann zur Initialzündung eines Sicherheitsvorfalls werden.
Zusammenhang mit CVE-2025-54988 und Problem im ersten Patch
Die neue Luecke CVE-2025-66516 steht in engem Zusammenhang mit der bereits im August 2025 veröffentlichten Schwachstelle CVE-2025-54988 (CVSS 8,4). Diese aeltere Meldung adressierte zwar vorhandene Risiken, stellte jedoch die Eintrittsstelle und betroffenen Module nicht praezise genug dar.
Urspruenglich wurde tika-parser-pdf-module als problematisches Artefakt genannt. In der Praxis lag der sicherheitsrelevante Fehler jedoch im zentralen Baustein tika-core. Administratoren, die lediglich den PDF-Parser aktualisierten, ohne tika-core auf Version 3.2.2 oder hoeher zu heben, blieben somit weiterhin verwundbar – obwohl sie davon ausgingen, die Luecke bereits geschlossen zu haben.
Zusätzlich fehlte im urspruenglichen Advisory der explizite Hinweis, dass in der Tika-1.x-Linie die Klasse PDFParser im Artefakt org.apache.tika:tika-parsers verortet war. Damit war der tatsaechlich betroffene Systemkreis groesser als zunaechst angenommen, insbesondere bei Altsystemen, die weiterhin auf Tika 1.x und das Gesamtpaket tika-parsers setzen.
Patch-Stand und empfohlene Gegenmassnahmen
Das Apache-Tika-Projekt hat aktualisierte Maven-Artefakte bereitgestellt, die CVE-2025-66516 für alle betroffenen Konfigurationen schliessen. Organisationen sollten zeitnah auf folgende Versionen migrieren:
• tika-core 3.2.2 oder neuer;
• tika-parser-pdf-module 3.2.2 oder neuer;
• tika-parsers 2.0.0 oder neuer (fuer Umgebungen, in denen der historische PDFParser aus Tika 1.x noch im Einsatz ist).
Im Rahmen der Härtung empfiehlt sich ein strukturiertes Vorgehen:
• Vollstaendige Inventarisierung der Abhaengigkeiten in Maven-, Gradle- oder anderen Build-Files, inklusive transitiver Bibliotheken;
• Abgleich aller Tika-Nutzungen (Suchdienste, File-Processing-Microservices, ETL-Pipelines, E-Mail- und DLP-Gateways) auf konsistente Versionen von tika-core und Parser-Modulen;
• Zusätzliche Absicherung der XML-Parser gemaess OWASP-Empfehlungen: Deaktivierung externer Entitaeten und DTD-Verarbeitung, sofern fachlich moeglich, selbst nach erfolgtem Patch.
Architekturelle Schutzmassnahmen fuer Dateiupload-Workflows
Langfristig sollte die Beseitigung von CVE-2025-66516 mit einer generellen Sicherheitsueberpruefung aller Dateiupload- und -verarbeitungsprozesse verbunden werden. Bewaehhrte Praktiken umfassen:
• Ausfuehrung von Apache Tika in isolierten Containern oder Sandboxen mit strikt begrenzten Berechtigungen;
• Einschraenkung des Dateisystemzugriffs (z.B. read-only Volumes, kein Zugriff auf Konfigurations- oder Schluesselverzeichnisse);
• Segmentierung der Netzwerke, sodass der Tika-Dienst keinen direkten Zugriff auf interne Kernsysteme besitzt;
• Etablierung von Security Monitoring fuer ungewoehnliche ausgehende Verbindungen und Dateioperationen, um XXE- und SSRF-Versuche fruehzeitig zu erkennen.
Unternehmen im Umgang mit sensiblen Daten – etwa aus Finanzbranche, oeffentlicher Verwaltung, Gesundheitswesen oder dem Rechtssektor – profitieren besonders von einem zentralisierten Vulnerability-Management-Prozess. Dazu gehoeren automatisierte Dependency-Scans, kontinuierliche Ueberwachung neuer CVEs sowie standardisierte Regressionstests nach Bibliotheks-Updates. Wer Apache Tika nutzt, sollte die genannten Versionen kurzfristig einspielen, XML-Parser defensiv konfigurieren und die Dateiverarbeitung architektonisch isolieren. So sinkt die Wahrscheinlichkeit erheblich, dass eine kritische Schwachstelle wie CVE-2025-66516 zum Ausgangspunkt eines schwerwiegenden Sicherheitsvorfalls wird.