Mastodon Mastodon Mastodon Mastodon

Wie Forscher OpenClaw-Agenten über Kontakte und E-Mails kompromittierten

Foto des Autors

CyberSecureFox Editorial Team

Veröffentlicht:

Zwei unabhängige Forscherteams — Imperva und Varonis — haben diese Woche Forschungsergebnisse veröffentlicht, die zeigen, dass OpenClaw, ein selbst gehosteter Open-Source-AI-Agent, dazu gebracht werden kann, beliebigen Code eines Angreifers auszuführen oder vertrauliche Daten über scheinbar harmlose Eingaben nach außen zu geben: einen geteilten Kontakt, eine vCard-Visitenkarte oder eine gewöhnliche E-Mail. Die Vulnerability der Injection über Message-Objekte ist in OpenClaw 2026.4.23 behoben, das Problem des sozialen Phishings von Agenten ist jedoch architektonischer Natur und lässt sich nicht per Patch lösen. Alle, die OpenClaw einsetzen, müssen umgehend aktualisieren und das Zugriffsmodell des Agenten überdenken.

Prompt-Injection über Message-Objekte: technische Analyse

Der Imperva-Forscher Johann Sillam stellte fest, dass OpenClaw beim Übergeben eines geteilten Kontakts, einer vCard oder eines Geolokalisierungs-Tags an das Sprachmodell den Inhalt dieser Objekte direkt in den Prompt-Text «entfaltete», ohne jegliche Markierung, die auf eine nicht vertrauenswürdige Quelle hinweist. Inhalte, die der Agent aus dem Internet lädt, wurden hingegen in einen speziellen Marker für nicht vertrauenswürdigen Content eingerahmt — Message-Objekte wurden dieser Behandlung jedoch nicht unterzogen.

Nach Angaben von Imperva übermittelte ein geteilter Kontakt dem Modell nur das Namensfeld im Format <contact: name, number>. Da spitze Klammern in einem Kontaktnamen zulässig sind, konnte das Modell nicht erkennen, wo der echte Name endet und die injizierte Anweisung beginnt. Ein Schlüsselfaktor: Der Kontaktname wird bei der Anzeige auf dem Bildschirm abgeschnitten — sowohl in WhatsApp als auch in der empfangenden Anwendung —, sodass das Opfer die bösartige Payload nicht sieht. Ein ähnlicher Angriffsvektor funktionierte über das Feld des vollständigen Namens in der vCard und über die Beschriftung eines geteilten Standortes.

Bei Tests mit Gemini 3.1 Pro (Vorabversion) wies versteckter Text im Kontakt den Agenten an, ein Skript vom Server der Forscher herunterzuladen und auszuführen — und der Agent tat dies. Der Versuch einer Prompt-Injection über ein Bild mit eingebetteten Anweisungen schlug hingegen fehl: Nach Ansicht der Forscher sind die Modelle bereits darauf trainiert, diesem Vektor zu widerstehen, während der Angriff über Message-Objekte für sie neu war.

Imperva betont ein zusätzliches Risiko: Die Speicherfunktion (Memory) ist in OpenClaw standardmäßig aktiviert. Das bedeutet, dass ein einziger weit verbreiteter Kontakt mit bösartiger Anweisung unbemerkt alle Agenten kompromittieren kann, die ihn verarbeiten, sofern sie nicht in einer Sandbox isoliert sind. Die Forscher fanden ein ähnliches Muster des «Entfaltens» von Daten im Prompt auch bei anderen persönlichen AI-Assistenten, was auf den systemischen Charakter des Problems hindeutet.

Der Fix in Version 2026.4.23 verschiebt Kontaktnamen, vCard-Felder und Geolokalisierungs-Tags aus dem Prompt-Body in einen separaten Kanal für nicht vertrauenswürdige Metadaten.

Agent-Phishing: die ganz normale E‑Mail als Angriffsvektor

Das Team der Varonis Threat Labs unter Leitung von Itay Yashar ging das Problem von der anderen Seite an. Die Forscher erstellten den Agenten Pinchy auf der OpenClaw-Plattform, verbanden ihn mit einem Gmail-Postfach mit realistisch wirkenden synthetischen Geschäftsdaten und führten vier Phishing-Simulationen auf den Modellen Google Gemini 3.1 Pro und OpenAI Codex GPT-5.4 durch.

Varonis zieht eine grundsätzliche Trennlinie zwischen Prompt Injection (versteckte Anweisungen in Daten) und dem, was sie Phishing von Agenten nennen: eine plausibel klingende Anfrage, die über einen normalen Kanal hereinkommt und deshalb greift, weil der Agent handelt, bevor der Absender geprüft ist.

Die Ergebnisse der Tests zur Datenexfiltration:

  • Dringlichkeitsszenario: Eine E-Mail im Namen des Teamleads „Dan“ von einer externen Gmail-Adresse forderte im Zuge eines angeblichen Produktionsvorfalls Zugang zur Staging-Umgebung an. Der Agent fand und sendete im Klartext Test-AWS-IAM-Schlüssel, Datenbank-Verbindungsstrings und SSH-Zugangsdaten.
  • Routineszenario: Eine Anfrage nach dem wöchentlichen Kunden-Export zur Vorbereitung eines QBR. Der Agent schickte einen synthetischen Datensatz mit 247 Unternehmenskunden einschließlich Kontaktdaten und Vertragssummen.

Beide Ausfälle traten auf, obwohl ein strenges Profil aktiv war, das den Agenten verpflichtete, Absender zu überprüfen. Die Regel existierte — aber im ersten Fall setzte sich die Dringlichkeit darüber hinweg, im zweiten die Routine.

Gleichzeitig schlug sich der Agent deutlich besser beim Erkennen technischer Bedrohungen: Er interagierte mit einer Phishing-Seite für Geschenkkarten, übermittelte jedoch keine echten Zugangsdaten und markierte sie schließlich als verdächtig. Bei einem bösartigen OAuth-Zustimmungsbildschirm, der als Zeiterfassungs-App getarnt war, prüfte der Agent die Ziel-Redirect-URL, stufte sie als verdächtig ein und stoppte.

Die zentrale Erkenntnis von Varonis: Ein AI-Agent erkennt bösartige URLs und gefälschte Login-Portale oft besser als viele Menschen, ist aber deutlich schwächer bei der sozialen Bewertung — etwa wenn ein Kollege plötzlich zu einer untypischen Zeit nach Zugangsdaten fragt. Nach Angaben der Forscher zeigte OpenAI Codex GPT-5.4 mehr Vorsicht als Gemini 3.1 Pro beim Senden von Daten an externe Ressourcen, doch beide Modelle ließen sich auf soziale Vorwände ein.

Architekturproblem: die «lethal trifecta»

Varonis bringt beide Angriffsvektoren mit einem Konzept in Verbindung, das Simon Willison als „lethal trifecta“ bezeichnet: ein Agent, der private Daten lesen, nicht vertrauenswürdigen Content empfangen und Daten nach außen senden kann. OpenClaw weist alle drei Eigenschaften auf — genau deshalb führen ein vergifteter Kontakt und eine freundliche E-Mail zum gleichen Ergebnis.

Das Problem unscharfer Vertrauensgrenzen zeigt sich auch auf Codeebene. Laut einer Analyse von InfoSec Write-ups wurden auf Basis früherer Sicherheitsempfehlungen für OpenClaw Static-Analysis-Regeln erstellt, die weitere fünf Schwachstellen in den Erweiterungen für die Kanäle Slack, Discord, Matrix, Zalo und Microsoft Teams aufdeckten. Alle fünf beruhten auf demselben Fehler: Der Code prüfte die Allowlist von Benutzerzugängen anhand des veränderbaren Anzeigenamens statt eines stabilen Identifikators, was es einem Angreifer erlaubte, sich umzubenennen und Zugriff zu erhalten. Nach vorliegenden Informationen sind diese Schwachstellen behoben.

Regulatorischer Kontext

Die niederländische Datenschutzbehörde (Autoriteit Persoonsgegevens) hat die bislang strengste Position eingenommen und Nutzern sowie Organisationen empfohlen, OpenClaw nicht auf Systemen mit vertraulichen Daten zu betreiben — mit Verweis auf die Risiken von Datenabflüssen und Account-Übernahmen. Dies verleiht den technischen Schlussfolgerungen der Forscher regulatorisches Gewicht.

Empfehlungen zum Schutz

Varonis empfiehlt vier konkrete Kontrollen, die sofort umgesetzt werden sollten:

  1. Agenten-Instruktionen als Policy: Die Instructions-Datei muss ein versionierbares, verbindlich durchgesetztes Dokument sein, keine bloße Empfehlung.
  2. Kontrolle ausgehender E-Mails: Verbot der erstmaligen Zustellung an unbekannte Adressen ohne Bestätigung durch einen Menschen — damit ein kompromittierter Agent kein Phishing von einem vertrauenswürdigen Account aus versenden kann.
  3. Trennung der Connector-Zugriffe nach Vertrauensstufe: Ein Postfach, das externe E-Mails verarbeitet, sollte nicht zugleich Zugang zum gesamten CRM-System haben. Die Berechtigungen eines Connectors müssen dem Vertrauensniveau der Aufgabenzufuhr entsprechen.
  4. Mensch in der Kette für kritische Aktionen: Das Weiterleiten von Zugangsdaten, das Ausführen von Überweisungen und andere Hochrisiko-Operationen müssen eine Bestätigung durch einen Menschen erfordern.

Beide Teams teilen dasselbe mentale Modell: Ein Agent ist kein Security-Tool, sondern — in den Worten von Varonis — ein „Junior-Mitarbeiter mit Systemzugriff und ohne Bauchgefühl für Verdächtiges“, oder, in der Terminologie von Imperva, ein „authentifizierter Ausführender, der seinen Eingabedaten vertraut“.

Die vordringliche Maßnahme ist das Update auf OpenClaw 2026.4.23 oder neuer, um die Injection-Vulnerability über Message-Objekte zu beseitigen. Doch der Patch schließt nur einen der beiden demonstrierten Vektoren. Das Architekturproblem — ein Agent, der per Design seinen Eingaben vertraut und helfen will — erfordert die Einführung der oben genannten Zugriffskontrollen und eine verpflichtende menschliche Beteiligung bei Entscheidungen mit hohem Risiko. Organisationen, die vertrauliche Daten verarbeiten, sollten die Empfehlung der niederländischen Aufsicht ernst nehmen und sorgfältig prüfen, ob der Anschluss von OpenClaw an Systeme mit sensiblen Informationen ohne vollständige Isolation überhaupt vertretbar ist.


CyberSecureFox Editorial Team

Die CyberSecureFox-Redaktion berichtet über Cybersecurity-News, Schwachstellen, Malware-Kampagnen, Ransomware-Aktivitäten, AI Security, Cloud Security und Security Advisories von Herstellern. Die Beiträge werden auf Grundlage von official advisories, CVE/NVD-Daten, CISA-Meldungen, Herstellerveröffentlichungen und öffentlichen Forschungsberichten erstellt. Artikel werden vor der Veröffentlichung geprüft und bei neuen Informationen aktualisiert.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.