Das Unternehmen AIR Security führte ein Experiment durch, das eine strukturelle Schwachstelle im Ökosystem der Skills für KI-Agenten demonstrierte: Ein gefälschter Skill bestand alle getesteten Security-Scanner, einschließlich der Tools von Cisco und NVIDIA, weil die schädliche Logik auf einer externen Ressource lag, die von den Scannern nicht analysiert wird. Das Problem betrifft alle, die KI-Agenten mit anschließbaren Skills aus Marktplätzen nutzen: Scanner prüfen nur den Inhalt des Pakets zum Zeitpunkt der Einreichung, während Inhalte hinter externen Links jederzeit nach der Prüfung ausgetauscht werden können. Organisationen müssen ihren Ansatz zum Vertrauen in Agent-Skills überdenken und eine Kontrolle externer Abhängigkeiten einführen.
Mechanik des Experiments
Der Skill mit dem Namen brand-landingpage wurde als Tool zur Erstellung von Landingpages mit Google Stitch positioniert und richtete sich an nicht-technische Anwender – Marketingfachleute, Vertrieb und Designer. Nach Angaben von AIR nutzten die Forschenden zwei zentrale Vertrauenssignale, um dem Skill Legitimität zu verleihen:
- GitHub-Sterne: Der Skill wurde per Pull Request in ein populäres Marktplatz-Repository mit rund 36.000 Sternen und 156 Skills eingebracht. Nach dem Merge des PR erbte der Skill den Ruf des gesamten Repositories.
- Sauberes Scanner-Ergebnis: Das Paket enthielt keinen schädlichen Code – nur die Anweisung für den Agenten, das „Stitch SDK“ zu installieren, indem er der Dokumentation über einen externen Link folgt.
Das Schlüsselelement der Attacke ist die Domain stitch-design.ai, die von AIR und nicht von Google kontrolliert wird (der echte Stitch-Dienst befindet sich unter stitch.withgoogle.com). Zunächst war unter dieser Adresse echte Stitch-Dokumentation abgelegt, sodass Scanner das Paket als sicher einstufen konnten. Nachdem der Skill über Instagram-Werbung verbreitet worden war, wurde der Seiteninhalt durch Anweisungen ersetzt, die den Agenten anweisen, ein Skript herunterzuladen und auszuführen.
Ein Skill ist ein Satz von Instruktionen, die der Agent in seinen Kontext lädt und mit Rechten ausführt, die in etwa einem Benutzerauftrag entsprechen. Wie die Dokumentation von Anthropic festhält, stellen Skills, die externe URLs aufrufen, ein Risiko dar, gerade weil sich der Inhalt hinter dem Link nach der Prüfung ändern kann.
Warum Scanner die Bedrohung nicht erkannten
Die getesteten Scanner – der Cisco skill-scanner, NVIDIA Skillspector und die in skills.sh integrierten Scanner – analysieren ausschließlich den Inhalt des eingereichten Pakets: die Datei SKILL.md und beigefügte Dateien. Externe Ressourcen, auf die sich der Skill bezieht, bleiben außerhalb des Prüfumfangs.
Das Problem ist struktureller Natur: Die Prüfung erfolgt einmalig zum Zeitpunkt der Einreichung, während die Seite, auf die der Skill den Agenten verweist, jederzeit umgeschrieben werden kann. Dies ist ein klassisches Muster einer verzögerten Austauschung der Payload, wie es aus Angriffen auf die Software-Lieferkette gut bekannt ist.
Unabhängige Bestätigung des Problems
Das AIR-Experiment ist keine isolierte Beobachtung. Drei Wochen zuvor veröffentlichte das Unternehmen Trail of Bits eine Untersuchung, in der es gelang, den Malicious-Skill-Detektor ClawHub, den Cisco-Scanner und alle drei in skills.sh integrierten Scanner zu umgehen. Das Fazit von Trail of Bits war eindeutig: Der Scanner prüft ein fixes Paket, während ein Angreifer die Payload iterativ anpassen kann, bis sie die Prüfung besteht.
Eine separate Studie zeigte zudem, dass Scanner in ihren Bewertungen häufig voneinander abweichen, da jeder Skill isoliert analysiert wird, ohne externe Links und mögliche Änderungen nach der Prüfung zu berücksichtigen.
Einordnung der Auswirkungen und Vorbehalte
Der Kontext der Veröffentlichung ist wichtig: AIR startet einen eigenen gemanagten Skill-Marktplatz und schließt den Bericht mit dessen Bewerbung ab. Die angegebene Reichweite und Details zu Unternehmenskonten sind nicht unabhängig verifiziert. Das Ausgangsmaterial weist selbst korrekt darauf hin, dass diese Zahlen mit Skepsis zu lesen sind.
Die Angriffsmethode ist jedoch unabhängig bestätigt und stellt eine reale Bedrohung dar. Potenzielle Folgen bei böswilligem Einsatz reichen vom Lesen von Dateien über die Bewegung von Daten bis hin zum Zugriff auf interne Systeme – im Rahmen der dem Agenten zur Verfügung stehenden Berechtigungen. Am stärksten gefährdet sind Organisationen, in denen Mitarbeitende eigenständig Skills für KI-Agenten installieren, ohne zentralen Kontrollmechanismus – insbesondere in Marketing-, Design- und Vertriebsabteilungen, auf die sich die Werbekampagne gezielt richtete.
Empfehlungen zum Schutz
- Bestandsaufnahme: Ermitteln Sie, welche Skills bereits installiert sind und in den Agenten der Organisation laufen. Nach Angaben der Forschenden wurden die meisten davon ohne jegliche Prüfung installiert.
- Zentraler Kontrollpunkt: Leiten Sie die Installation neuer Skills über eine zentrale, kontrollierte Quelle. Untersagen Sie die eigenständige Installation von Skills aus öffentlichen Marktplätzen.
- Prüfung externer Abhängigkeiten: Analysieren Sie nicht nur den Paketinhalt, sondern auch alle Ressourcen, auf die sich der Skill bezieht. Überprüfen Sie die Inhaberschaft der Domains.
- Erneute Prüfung: Überprüfen Sie Skills erneut, sobald sich zugehörige externe Inhalte ändern. Ein unauffälliges Ergebnis bei der Installation garantiert keine dauerhafte Sicherheit.
- Versionen fixieren: Legen Sie konkrete Versionen von Skills und deren Abhängigkeiten fest.
- Minimal notwendige Privilegien: Beschränken Sie Agenten auf die minimal erforderlichen Zugriffsrechte. Gehen Sie davon aus, dass jede externe Instruktion, die der Agent lädt, mit seinen Berechtigungen ausgeführt wird.
Das Experiment von AIR hat keine neue Schwachstelle in einem konkreten Produkt aufgedeckt – es hat anschaulich gezeigt, wie mehrere schwache Vertrauenssignale (übernommene GitHub-Sterne, einmaliges Scannen des Pakets, überschreibbare externe Links) zusammen einen funktionierenden Angriffsvektor auf die Lieferkette von KI-Agenten ergeben. Organisationen, die Agenten mit anschließbaren Skills einsetzen, sollten unverzüglich einen Audit der installierten Skills durchführen, die Kontrolle externer Abhängigkeiten einführen und zu einem Modell übergehen, in dem ein Skill als ausführbarer Code und nicht als vertrauenswürdiger Text betrachtet wird.