Unsichtbare Prompt-Injections: Neue KI-Bedrohung Durch Manipulierte Bilder

Cybersecurity-Experten von Trail of Bits haben eine neuartige Angriffsmethode auf Künstliche Intelligenz-Systeme entwickelt, die versteckte Schadcode-Anweisungen in scheinbar harmlosen Bildern einbettet. Diese innovative Technik nutzt die automatischen Bildverarbeitungsprozesse von KI-Plattformen aus und stellt eine erhebliche Bedrohung für die Sicherheit moderner AI-Systeme dar.

Funktionsweise versteckter Bildmanipulationen

Die Attacke basiert auf einem raffinierten Prinzip: Schädliche Textbefehle werden unsichtbar in hochauflösende Bilder eingebettet und bleiben für das menschliche Auge vollständig verborgen. Erst wenn KI-Systeme diese Bilder automatisch verarbeiten und dabei Komprimierungs- oder Skalierungsalgorithmen anwenden, werden die versteckten Anweisungen sichtbar und ausführbar.

Der kritische Moment tritt ein, wenn AI-Plattformen zur Leistungsoptimierung verschiedene Interpolationsmethoden wie Step-, Bilinear- oder Bikubic-Verfahren einsetzen. Diese mathematischen Prozesse zur Bildverkleinerung oder -vergrößerung bringen die zuvor unsichtbaren Textmuster zum Vorschein, welche die KI-Modelle als legitime Benutzereingaben interpretieren.

Wissenschaftliche Grundlagen und technische Umsetzung

Die von den Forschern Kikimora Morozova und Suha Sabi Hussain entwickelte Methodik baut auf theoretischen Erkenntnissen einer USENIX-Konferenz von 2020 auf. Wissenschaftler der Technischen Universität Braunschweig hatten bereits das Potenzial von Angriffen durch Bildskalierung im Machine Learning-Kontext untersucht.

In praktischen Demonstrationen zeigten die Trail of Bits-Experten, wie dunkle Bildbereiche durch bikubische Interpolation in rote Bereiche umgewandelt werden, wodurch versteckter Text erscheint. Die KI-Systeme verarbeiten diesen enthüllten Inhalt als authentischen Teil der Benutzeranfrage, ohne die manipulative Natur zu erkennen.

Bestätigte Angriffsziele

Die Forscher testeten ihre Angriffstechnik erfolgreich gegen mehrere prominente KI-Plattformen und konnten folgende Systeme kompromittieren:

• Google Gemini CLI und Web-Interface
• Vertex AI Studio mit Gemini-Backend
• Google Assistant auf Android-Geräten
• Genspark und weitere AI-Services

Besonders bemerkenswert war ein Experiment mit Gemini CLI, bei dem die Angreifer erfolgreich Google Calendar-Daten extrahierten und über Zapier MCP mit aktivierter Auto-Approval-Funktion an externe E-Mail-Adressen weiterleiteten.

Anamorpher: Werkzeug zur Erstellung schädlicher Bilder

Als Teil ihrer Forschungsarbeit entwickelte das Trail of Bits-Team das Open-Source-Tool Anamorpher. Diese Software ermöglicht die Generierung manipulierter Bilder, die speziell auf die Bildverarbeitungsalgorithmen verschiedener KI-Plattformen zugeschnitten sind.

Ein wichtiger Aspekt dieser Angriffsmethode ist die Notwendigkeit individueller Anpassungen für jede Zielplattform, da unterschiedliche Systeme verschiedene Bildverarbeitungstechniken verwenden. Diese Variabilität erschwert die Entwicklung universeller Schutzmaßnahmen erheblich.

Schutzstrategien gegen versteckte Prompt-Injections

Sicherheitsexperten empfehlen einen mehrschichtigen Ansatz zur Abwehr solcher Angriffe. Primäre Schutzmaßnahmen umfassen Beschränkungen der Upload-Bildgrößen und die Implementierung von Vorschaufunktionen für Bildverarbeitungsergebnisse.

Essentiell ist die Einführung expliziter Bestätigungsverfahren für potenziell risikoreiche Operationen, insbesondere wenn Textinhalte in Bildern erkannt werden. Als wirksamste Lösung gilt jedoch die Integration systemweiter Sicherheitsmechanismen und sicherer Design-Patterns in die Architektur von KI-Systemen.

Die Entdeckung versteckter Prompt-Injection-Techniken durch Bildmanipulation markiert einen Wendepunkt in der KI-Sicherheitslandschaft. Entwickler von AI-Plattformen stehen vor der dringenden Aufgabe, ihre Sicherheitsarchitekturen zu überarbeiten und robuste Abwehrmechanismen gegen diese neuartigen Bedrohungen zu implementieren. Nur durch proaktive Sicherheitsmaßnahmen und kontinuierliche Anpassung an neue Angriffsvektoren können KI-Systeme langfristig vertrauenswürdig und sicher betrieben werden.

Funktionsweise versteckter Bildmanipulationen

Wissenschaftliche Grundlagen und technische Umsetzung

Bestätigte Angriffsziele

Anamorpher: Werkzeug zur Erstellung schädlicher Bilder

Schutzstrategien gegen versteckte Prompt-Injections

Schreibe einen Kommentar Antwort abbrechen

Cybersecurity Nachrichten

APT-Gruppe Tomiris: Zielgerichtete Cyberangriffe auf staatliche Institutionen in Russland und der GUS

Cybersecurity Nachrichten

Kritische Sicherheitsluecke im KI-Browser Comet: Verstecktes MCP API unter Beschuss

Cybersecurity Nachrichten

GrapheneOS zieht Server aus Frankreich ab: Verschluesselung und Rechtsrahmen unter Druck

Cybersecurity Nachrichten

PlushDaemon: Router-Hijacking und manipulierte Software-Updates als Werkzeug fuer Cyberspionage

Cybersecurity Nachrichten

WormGPT 4 und KawaiiGPT: Angriffsfokussierte KI-Modelle im Cybercrime-Ökosystem

Cybersecurity Nachrichten

Bloody Wolf zielt mit Phishing und NetSupport RAT auf Finanz- und Staatssektor in Zentralasien

Unsichtbare Prompt-Injections: Neue KI-Bedrohung durch manipulierte Bilder

Funktionsweise versteckter Bildmanipulationen

Wissenschaftliche Grundlagen und technische Umsetzung

Bestätigte Angriffsziele

Anamorpher: Werkzeug zur Erstellung schädlicher Bilder

Schutzstrategien gegen versteckte Prompt-Injections

Schreibe einen Kommentar Antwort abbrechen

Neueste Beiträge

Cybersecurity Nachrichten

APT-Gruppe Tomiris: Zielgerichtete Cyberangriffe auf staatliche Institutionen in Russland und der GUS

Cybersecurity Nachrichten

Kritische Sicherheitsluecke im KI-Browser Comet: Verstecktes MCP API unter Beschuss

Cybersecurity Nachrichten

GrapheneOS zieht Server aus Frankreich ab: Verschluesselung und Rechtsrahmen unter Druck

Cybersecurity Nachrichten

PlushDaemon: Router-Hijacking und manipulierte Software-Updates als Werkzeug fuer Cyberspionage

Cybersecurity Nachrichten

WormGPT 4 und KawaiiGPT: Angriffsfokussierte KI-Modelle im Cybercrime-Ökosystem

Cybersecurity Nachrichten

Bloody Wolf zielt mit Phishing und NetSupport RAT auf Finanz- und Staatssektor in Zentralasien