OpenAI hat mit Codex Security einen spezialisierten KI-Agenten vorgestellt, der Quellcode gezielt nach Sicherheitsluecken durchsucht. In einer Beta-Phase analysierte das System laut OpenAI bereits mehr als 1,2 Millionen Commits und identifizierte dabei 792 kritische sowie 10.561 schwerwiegende Schwachstellen in populären Open-Source-Projekten, von denen einige bereits offizielle CVE-IDs erhalten haben.
OpenAI Codex Security im Research Preview: Zugriff und Zielgruppe
Aktuell steht Codex Security als Research Preview Nutzern von ChatGPT Pro, Enterprise, Business und Edu zur Verfuegung – zunaechst ueber das Web-Interface von Codex. Im ersten Monat soll die Nutzung kostenfrei sein. Damit koennen Entwicklungs- und Security-Teams praxisnah testen, wie sich der KI-Agent in einen Secure Software Development Lifecycle (SSDLC) integrieren laesst.
Vom Projekt Aardvark zum produktiven KI-Sicherheitsagenten
Codex Security baut auf dem internen OpenAI-Projekt Aardvark auf. Dieser KI-Agent wurde zuvor in einer geschlossenen Beta eingesetzt und sollte Entwicklern wie Security-Spezialisten helfen, Fehler und Schwachstellen in grossen Codebasen autonom zu finden und zu beheben. In internen Tests identifizierte Aardvark unter anderem eine SSRF-Schwachstelle (Server-Side Request Forgery) sowie einen kritischen Authentifizierungs-Bypass zwischen Mandanten, die anschliessend von den Entwicklungsteams behoben wurden.
Arbeitsweise von Codex Security: Threat Modeling statt reinem SAST
Im Unterschied zu klassischen SAST-Tools (Static Application Security Testing) beschraenkt sich Codex Security nicht auf lineares Scannen von Dateien anhand fester Regeln oder Signaturen. Der Agent analysiert zunaechst Repository-Struktur, Architektur und Einsatzzweck einer Anwendung und erstellt daraus eine projektspezifische Threat-Modeling-Ansicht, bevor er gezielt nach Schwachstellen sucht.
Von der Architekturverstaendnis zu realistischen Angriffswegen
Die Arbeitsweise orientiert sich damit eher an einem menschlichen Auditor: Der KI-Agent bewertet, welche Daten besonders schutzbeduerftig sind, wie Authentifizierung und Autorisierung umgesetzt sind und welche externen Dienste angebunden werden. Auf dieser Grundlage sucht er nach Angriffsvektoren und gefaehrlichen Datenfluesse-Ketten – etwa Kombinationen aus unsicherem Input-Handling, unzureichender Rechtepruefung und sensiblen Back-End-Komponenten.
Anpassbare Threat-Modelle fuer geringeren Analyse-Overhead
Die erzeugte Bedrohungsmodellierung bleibt editierbar. Security-Engineers koennen Szenarien, Bedrohungsakteure, Prioritaeten und Risikobereiche nachschaerfen. Dadurch laesst sich der KI-Agent an Branchenkontext, Compliance-Vorgaben oder Architekturentscheidungen einer Organisation anpassen und die Zahl irrelevanter Findings deutlich reduzieren – ein zentraler Faktor, um Alert-Muedigkeit in AppSec-Teams zu vermeiden.
Validierung in der Sandbox: Weniger False Positives im AppSec-Alltag
Ein weiteres Kernelement von Codex Security ist die Verifikation von Schwachstellen in einer isolierten Sandbox. Der Agent markiert nicht nur verdächtige Codestellen, sondern versucht, die Verwundbarkeit in einer Testumgebung tatsaechlich auszunutzen. So lassen sich False Positives deutlich reduzieren – eines der groessten Probleme vieler SAST-Loesungen.
Laut OpenAI sank der Anteil der False Positives um mehr als 50 Prozent über alle untersuchten Repositories. In einzelnen Projekten konnte der „Rauschanteil“ aus wenig relevanten oder praktisch kaum ausnutzbaren Findings um bis zu 84 Prozent verringert werden. Das ist im Kontext von Application Security bedeutsam: Studien wie der IBM Cost of a Data Breach Report 2023 zeigen, dass schnelle, fokussierte Reaktion auf relevante Schwachstellen ein wesentlicher Hebel zur Senkung von Schadenssummen ist.
Gefundene Schwachstellen in Open-Source-Projekten und neue CVEs
Nach Angaben von OpenAI entdeckte der KI-Agent Schwachstellen in zentralen Open-Source-Projekten wie OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP und Chromium. Mehrere dieser Funde wurden bereits als Common Vulnerabilities and Exposures (CVE) registriert, darunter CVE-2025-32988 und CVE-2025-32989 in GnuTLS, CVE-2025-64175 und CVE-2026-25242 in GOGS sowie eine Serie von Eintraegen fuer den Browser Thorium (CVE-2025-35430 bis CVE-2025-35436).
Dass ein KI-Agent kritische Schwachstellen in Kryptobibliotheken, SSH-Komponenten oder Browsern aufdeckt, verdeutlicht die wachsende Bedeutung automatisierter Schwachstellensuche in der Open-Source-Supply-Chain. Sicherheitsluecken in weit verbreiteten Bibliotheken wirken sich oft auf tausende Produkte und Organisationen aus und treiben das Risiko von Supply-Chain-Angriffen nach oben – ein Trend, den unter anderem Analysen von ENISA und NIST seit Jahren betonen.
Am Ende des Analyseprozesses generiert Codex Security konkrete Patch-Vorschlaege, die das reale Systemverhalten und potenzielle Seiteneffekte beruecksichtigen sollen. Entwickler koennen diese Fixes direkt im Interface sichten, anpassen und in bestehende Code-Review-Prozesse oder CI/CD-Pipelines integrieren. Damit verschmilzt Schwachstellenanalyse mit Security-by-Design und DevSecOps-Praxis.
Programm „Codex for OSS“ und Wettbewerb im Markt fuer KI-Security-Tools
Parallel zum Start von Codex Security hat OpenAI das Foerderprogramm „Codex for OSS“ angekuendigt. Maintainer von Open-Source-Projekten koennen kostenlose ChatGPT-Pro-Accounts und Zugriff auf den KI-Agenten beantragen, um Schwachstellen proaktiv zu identifizieren. Ziel ist es, den technischen Schuldenberg im Open-Source-Umfeld abzubauen und das generelle Sicherheitsniveau der Oekosysteme zu heben.
Codex Security fuegt sich in einen klaren Markttrend ein: generative KI in der Cybersicherheit. Kurz zuvor hatte etwa Anthropic mit Claude Code Security ein konkurrierendes Werkzeug vorgestellt. Damit entsteht eine neue Kategorie von Security-Loesungen, in der KI-Agenten nicht nur Schwachstellen aufdecken, sondern auch kontextabhaengige Remediation-Empfehlungen liefern und die Mean Time to Remediate (MTTR) signifikant senken koennen.
Entscheidend bleibt dabei die Einordnung: KI-Sicherheitsagenten ersetzen keinen manuellen Audit, Penetrationstests oder etabliertes SAST, sondern ergaenzen und verstaerken diese Verfahren. Die besten Ergebnisse werden erzielt, wenn Organisationen KI-gestuetzte Code-Analyse bei Pull Requests einbinden, Threat-Modeling zur Priorisierung nutzen und einen engen Dialog zwischen Entwicklern und Security-Teams pflegen. Fuer Open-Source-Maintainer und Produktanbieter gilt: Wer fruehzeitig auf automatisierte Schwachstellensuche mit KI setzt, reduziert das Risiko schwerer Sicherheitsvorfaelle und staerkt nachhaltig das Vertrauen in seine Software.