Cybersecurity-Experten von Trail of Bits haben eine neuartige Angriffsmethode auf Künstliche Intelligenz-Systeme entwickelt, die versteckte Schadcode-Anweisungen in scheinbar harmlosen Bildern einbettet. Diese innovative Technik nutzt die automatischen Bildverarbeitungsprozesse von KI-Plattformen aus und stellt eine erhebliche Bedrohung für die Sicherheit moderner AI-Systeme dar.
Funktionsweise versteckter Bildmanipulationen
Die Attacke basiert auf einem raffinierten Prinzip: Schädliche Textbefehle werden unsichtbar in hochauflösende Bilder eingebettet und bleiben für das menschliche Auge vollständig verborgen. Erst wenn KI-Systeme diese Bilder automatisch verarbeiten und dabei Komprimierungs- oder Skalierungsalgorithmen anwenden, werden die versteckten Anweisungen sichtbar und ausführbar.
Der kritische Moment tritt ein, wenn AI-Plattformen zur Leistungsoptimierung verschiedene Interpolationsmethoden wie Step-, Bilinear- oder Bikubic-Verfahren einsetzen. Diese mathematischen Prozesse zur Bildverkleinerung oder -vergrößerung bringen die zuvor unsichtbaren Textmuster zum Vorschein, welche die KI-Modelle als legitime Benutzereingaben interpretieren.
Wissenschaftliche Grundlagen und technische Umsetzung
Die von den Forschern Kikimora Morozova und Suha Sabi Hussain entwickelte Methodik baut auf theoretischen Erkenntnissen einer USENIX-Konferenz von 2020 auf. Wissenschaftler der Technischen Universität Braunschweig hatten bereits das Potenzial von Angriffen durch Bildskalierung im Machine Learning-Kontext untersucht.
In praktischen Demonstrationen zeigten die Trail of Bits-Experten, wie dunkle Bildbereiche durch bikubische Interpolation in rote Bereiche umgewandelt werden, wodurch versteckter Text erscheint. Die KI-Systeme verarbeiten diesen enthüllten Inhalt als authentischen Teil der Benutzeranfrage, ohne die manipulative Natur zu erkennen.
Bestätigte Angriffsziele
Die Forscher testeten ihre Angriffstechnik erfolgreich gegen mehrere prominente KI-Plattformen und konnten folgende Systeme kompromittieren:
• Google Gemini CLI und Web-Interface
• Vertex AI Studio mit Gemini-Backend
• Google Assistant auf Android-Geräten
• Genspark und weitere AI-Services
Besonders bemerkenswert war ein Experiment mit Gemini CLI, bei dem die Angreifer erfolgreich Google Calendar-Daten extrahierten und über Zapier MCP mit aktivierter Auto-Approval-Funktion an externe E-Mail-Adressen weiterleiteten.
Anamorpher: Werkzeug zur Erstellung schädlicher Bilder
Als Teil ihrer Forschungsarbeit entwickelte das Trail of Bits-Team das Open-Source-Tool Anamorpher. Diese Software ermöglicht die Generierung manipulierter Bilder, die speziell auf die Bildverarbeitungsalgorithmen verschiedener KI-Plattformen zugeschnitten sind.
Ein wichtiger Aspekt dieser Angriffsmethode ist die Notwendigkeit individueller Anpassungen für jede Zielplattform, da unterschiedliche Systeme verschiedene Bildverarbeitungstechniken verwenden. Diese Variabilität erschwert die Entwicklung universeller Schutzmaßnahmen erheblich.
Schutzstrategien gegen versteckte Prompt-Injections
Sicherheitsexperten empfehlen einen mehrschichtigen Ansatz zur Abwehr solcher Angriffe. Primäre Schutzmaßnahmen umfassen Beschränkungen der Upload-Bildgrößen und die Implementierung von Vorschaufunktionen für Bildverarbeitungsergebnisse.
Essentiell ist die Einführung expliziter Bestätigungsverfahren für potenziell risikoreiche Operationen, insbesondere wenn Textinhalte in Bildern erkannt werden. Als wirksamste Lösung gilt jedoch die Integration systemweiter Sicherheitsmechanismen und sicherer Design-Patterns in die Architektur von KI-Systemen.
Die Entdeckung versteckter Prompt-Injection-Techniken durch Bildmanipulation markiert einen Wendepunkt in der KI-Sicherheitslandschaft. Entwickler von AI-Plattformen stehen vor der dringenden Aufgabe, ihre Sicherheitsarchitekturen zu überarbeiten und robuste Abwehrmechanismen gegen diese neuartigen Bedrohungen zu implementieren. Nur durch proaktive Sicherheitsmaßnahmen und kontinuierliche Anpassung an neue Angriffsvektoren können KI-Systeme langfristig vertrauenswürdig und sicher betrieben werden.