Project Glasswing: Wie KI Das Vulnerability-Management Grundlegend Verändert

Anthropics Ankündigung von Project Glasswing markiert einen Wendepunkt für die Cybersicherheit: Erstmals ist ein Hersteller so weit gegangen, eine besonders leistungsfähige KI für die Schwachstellenanalyse nicht sofort öffentlich zu machen. Stattdessen erhalten nur ausgewählte Großanbieter wie Apple, Microsoft, Google und Amazon Zugriff, um kritische Lücken zu schließen, bevor Angreifer sie ausnutzen können.

Mythos Preview: KI entdeckt systemische Schwachstellen im Kern kritischer Software

Das Herzstück von Project Glasswing ist die Modellfamilie Mythos Preview. Anders als klassische Scanner oder Fuzzing-Tools fokussiert Mythos nicht nur einzelne Programmierfehler, sondern erkennt systemische Sicherheitsdefizite in Betriebssystemen, Browsern und anderer kritischer Infrastruktursoftware. Dabei werden auch Codebereiche identifiziert, die seit Jahren manuelle Code Reviews, automatisierte Tests und Überprüfungen durch Open-Source-Communities überstanden haben.

Besonders aufsehenerregend ist der Fall einer Schwachstelle in OpenBSD, einem der bekanntesten sicherheitsfokussierten Betriebssysteme. Die von KI entdeckte Verwundbarkeit existierte offenbar rund 27 Jahre im Code, obwohl OpenBSD häufig als Referenz für sichere Softwareentwicklung genannt wird. Dieser Befund verdeutlicht die Grenzen traditioneller Audit-Methoden und zeigt, wie stark KI-gestützte Analysen menschliche Prüfprozesse ergänzen können.

Von der Analyse zur Ausnutzung: 72,4 % erfolgreiche Exploits in Testszenarien

Mythos unterscheidet sich deutlich von früheren Frontier-Modellen wie Claude Opus 4.6. Während ältere Modelle bei der autonomen Entwicklung funktionierender Exploits weitgehend scheiterten, erreichte Mythos in Testumgebungen – konkret in der Firefox JS Shell – eine Erfolgsquote von 72,4 % bei der tatsächlichen Ausnutzung identifizierter Schwachstellen. Die KI beschränkt sich damit nicht auf das Markieren “verdächtigen” Codes, sondern ist in der Lage, vollständige, lauffähige Angriffsketten zu konstruieren.

Das eigentliche Nadelöhr: Remediation statt Detection

Der kritischste Befund aus Sicht der Verteidiger: Weniger als 1 % der von Mythos gefundenen Schwachstellen wurde bislang tatsächlich behoben. Das Problem verschiebt sich damit von der Erkennung hin zur Beseitigung von Sicherheitslücken. Security-Teams erhalten zwar mehr und bessere Informationen, können diese aber operativ kaum verarbeiten.

Der Grund liegt in der Struktur heutiger Prozesse. Vulnerability-Management arbeitet oft im „Kalendertakt“: Meldung erhalten, Priorität bestimmen, Tickets erstellen, Patch einspielen, erneut testen. Selbst in reifen Organisationen vergehen so meist mehrere Tage bis Wochen. Angreifer nutzen dagegen bereits heute LLM-gestützte Workflows für Reconnaissance, Exploit-Entwicklung und laterale Bewegungen – und agieren damit faktisch in Maschinengeschwindigkeit.

Praxisbeispiel: LLM-basierte Angriffskampagne auf FortiGate-Systeme

Dass es sich nicht um theoretische Risiken handelt, zeigt eine dokumentierte Kampagne gegen FortiGate-Appliances. Angreifer setzten einen eigenen MCP-Server mit integrierter Large Language Model (LLM)-Instanz ein, um weite Teile der Angriffskette zu automatisieren: Analyse der Konfiguration, Auswahl geeigneter Exploit-Vektoren, Ausnutzen bekannter Schwachstellen, Zurücksetzen von Zugangsdaten und Vorbereitung der Datenausschleusung.

Im Ergebnis wurden 2.516 Organisationen in 106 Ländern nahezu parallel kompromittiert. Menschliche Operatoren griffen erst bei der Auswertung der Ergebnisse und der Feinsteuerung ein. Der Geschwindigkeitsunterschied zwischen angegriffenen Unternehmen und Angreifern vergrößert sich damit von einer „Lücke“ zu einer strukturellen Asymmetrie.

CVE-Explosion und Grenzen des CVSS-basierten Vulnerability-Managements

Mit Project Glasswing und ähnlichen KI-Werkzeugen ist ein sprunghafter Anstieg an identifizierten Schwachstellen und CVE-Einträgen zu erwarten. Die meisten Organisationen priorisieren jedoch weiterhin auf Basis des Common Vulnerability Scoring System (CVSS), also eines theoretischen Gefährdungsscores. Dieser Ansatz blendet oft den Kontext aus: vorhandene Sicherheitskontrollen, Netzwerksegmentierung, tatsächliche Erreichbarkeit der Systeme und konkrete Geschäftsrisiken.

Steigt das Volumen von einigen Hundert auf mehrere Tausend Findings, geraten CVSS-basierte Priorisierungsmodelle an ihre Grenzen. Branchenberichte wie der Verizon Data Breach Investigations Report (DBIR) und Analysen europäischer Institutionen wie ENISA zeigen seit Jahren, dass selbst als „kritisch“ eingestufte Schwachstellen häufig über Monate ungepatcht bleiben. Untersuchungen von Anbietern wie Picus Security legen nahe, dass bis zu 83 % der Sicherheitsprogramme keinen messbaren Effekt erzielen, wenn sie sich auf Sichtbarkeit statt auf die tatsächliche Ausnutzbarkeit konzentrieren.

Continuous Autonomous Exposure Validation als Antwort auf die „CVE-Welle“

In einem Umfeld, in dem KI die Entdeckung von Schwachstellen radikal beschleunigt und verbilligt, wird die Validierung zum entscheidenden Faktor: Welche Lücke ist in meiner spezifischen Umgebung wirklich ausnutzbar – unter Berücksichtigung von Konfiguration, vorhandenen Kontrollen und Geschäftsprozessen? Hier haben Verteidiger einen Vorteil, weil sie ihre Infrastruktur besser kennen. Dieser Wissensvorsprung greift jedoch nur, wenn er mit ähnlicher Geschwindigkeit wie die Angreifer operationalisiert wird.

Autonome Validierung: Von der Warnung zur bestätigten Angriffsfläche

Ein neuer Lösungsansatz ist die Klasse der Plattformen für Autonomous Exposure Validation. Ein Beispiel ist Picus Swarm: eine koordinierte Gruppe spezialisierter KI-Agenten, die den klassischen, mehrstufigen Prozess automatisiert – von der Auswertung aktueller Advisories (etwa CISA-Bulletins) über die Modellierung realistischer Angriffstechniken bis hin zur Überprüfung der tatsächlichen Ausnutzbarkeit in der eigenen Umgebung und der Ableitung konkreter Remediation-Empfehlungen.

Laut Anbieterdaten kann ein solcher Ansatz den traditionellen Zyklus „Erkennung – Analyse – Behebung – Verifikation“, der sonst oft mehrere Tage dauert, auf Minuten verkürzen. Alle Aktionen der Agenten bleiben dabei protokolliert und durch Richtlinien begrenzt. Ein zentraler Paradigmenwechsel ist der Übergang von zeitgesteuerten zu ereignisgesteuerten Tests: Jede neue Schwachstelle, jede relevante Konfigurationsänderung oder neu veröffentlichter Exploit sollte automatisch eine Überprüfung der eigenen Schutzmechanismen auslösen.

Project Glasswing wird letztlich nicht daran gemessen werden, wie viele CVEs es generiert oder wie komplexe Exploit-Ketten die KI bauen kann, sondern daran, wieviele Schwachstellen vor ihrer breiten Ausnutzung tatsächlich geschlossen werden. Organisationen sollten daher ihre Vulnerability-Management-Strategien jetzt anpassen: Weg von rein CVSS-getriebener Priorisierung, hin zu kontinuierlicher, risikobasierter und weitgehend automatisierter Validierung. Wer frühzeitig in Prozesse, Technologien und Kompetenzen für autonome Validierung investiert, verkleinert den wachsenden Abstand zur Angreiferseite und verbessert die eigenen Chancen, im „Post-Glasswing“-Zeitalter widerstandsfähig zu bleiben.