RowHammer-Angriffe auf GPU: GPUBreach, GDDRHammer und GeForge gefaehrden KI- und Cloud-Infrastrukturen

CyberSecureFox

Hochperformante Grafikprozessoren (GPU) galten lange als vergleichsweise schwer auszubeutende Angriffsfläche. Neue akademische Studien zeigen nun jedoch, dass aktuelle GDDR6-basierte GPUs systematisch für RowHammer-Angriffe anfällig sind. Die Arbeiten mit den Codenamen GPUBreach, GDDRHammer und GeForge demonstrieren nicht nur Datenkorruption in der Videospeicher (VRAM), sondern in bestimmten Szenarien sogar die vollständige Kompromittierung der Host-CPU.

RowHammer auf GDDR6-GPUs: Technischer Hintergrund und neue Erkenntnisse

RowHammer bezeichnet einen Hardwarefehler in DRAM, bei dem wiederholtes Auslesen derselben Speicherzeile (Hammering) durch elektrische Störwirkungen Bit-Flips in benachbarten Zeilen auslöst. Dieses Phänomen wurde erstmals 2014 für DDR3-Systeme detailliert beschrieben und untergräbt das Grundprinzip der Speicherisolation, auf dem Betriebssysteme und Sandbox-Mechanismen aufbauen.

Lange wurde angenommen, dass moderne GPUs durch Architekturanpassungen, Refresh-Strategien und optionales ECC (Error Correcting Code) hinreichend geschützt seien. Die Forschung GPUHammer (2025) widerlegte diese Annahme erstmals praktisch: Durch massiv paralleles Hammering auf NVIDIA-GPUs mit GDDR6-Speicher konnten Forschende reproduzierbar Bit-Flips erzeugen und die Genauigkeit von auf der GPU laufenden Machine-Learning-Modellen um bis zu 80 Prozent reduzieren.

GPUBreach: Von GDDR6-RowHammer zur Root-Recht-Eskalation

Manipulation von GPU-Page-Tables über RowHammer

GPUBreach geht über reine Integritätsangriffe hinaus und zielt gezielt auf die Tabellen zur GPU-Speicherverwaltung (Page Tables). Durch präzise induzierte Bit-Flips in GDDR6 werden Einträge der Page Tables (Page Table Entries, PTE) verändert. Ein zunächst unprivilegierter Prozess kann so beliebige Lese- und Schreibzugriffe im GPU-Adressraum erlangen, indem er die Zuordnung von Speicherseiten heimlich umbiegt.

IOMMU-Bypass und Uebergang zu Kernel-Rechten

Besonders sicherheitsrelevant ist, dass GPUBreach diesen Angriff auch bei aktivierter IOMMU demonstriert. Anstatt die Isolationsmechanismen der IOMMU direkt zu brechen, nutzt der kompromittierte GPU-Kontext seine manipulierten PTE, um DMA-Zugriffe auf legitimerweise freigegebene Host-RAM-Bereiche durchzuführen – etwa auf Puffer des NVIDIA-Treibers. Durch Korruption dieses vertrauenswürdigen Treiberzustands entstehen kontrollierbare Speicherfehler im Kernel, die letztlich eine beliebige Schreibprimitive im Kernelspace und Root-Shell ermöglichen.

Diebstahl von Kryptoschluesseln und Sabotage von KI-Modellen

Neben der Privilegieneskalation zeigen die Forschenden, dass GPUBreach vertrauliche kryptografische Schlüssel aus GPU-basierten Bibliotheken wie NVIDIA cuPQC extrahieren kann. Zudem lassen sich ML-Modelle gezielt manipulieren, indem Gewichte oder Parameter im Speicher unbemerkt verändert werden. Damit bedroht GPUBreach sowohl die Vertraulichkeit als auch die Integrität von Workloads in GPU-beschleunigten Umgebungen.

Auswirkungen auf Cloud-Computing, Multi-Tenant-GPUs und KI-Sicherheit

Die vorgestellten Angriffe haben unmittelbare Relevanz für Cloud-GPU-Angebote, HPC-Cluster und Multi-Tenant-KI-Plattformen. In solchen Szenarien teilen sich mehrere Kunden denselben physischen Beschleuniger. Gelingt einem Angreifer der Zugriff auf einen geteilten GPU-Knoten, kann ein erfolgreicher GPUBreach-Angriff im schlimmsten Fall:

  • Daten, Modelle und Zwischenergebnisse anderer Mandanten im GPU-Speicher auslesen oder manipulieren,
  • über DMA Zugriffe auf Host-RAM erlangen, inklusive kryptografischer Schlüssel oder Zugangstoken,
  • als Ausgangspunkt für laterale Bewegungen im Rechenzentrum dienen und Management- oder Orchestrierungsysteme kompromittieren.

Vergleich: GPUBreach, GDDRHammer und GeForge im Ueberblick

Alle drei neuen Ansätze nutzen RowHammer-induzierte Bit-Flips in GDDR6, um die GPU-Adressübersetzung zu manipulieren, unterscheiden sich aber in technischen Details und Anforderungen. GDDRHammer verändert das sogenannte Aperture-Feld in PTEs, sodass ein unprivilegierter CUDA-Kern den gesamten CPU-Adressraum lesen und schreiben kann. Dies ermöglicht weitreichenden Zugriff auf Host-Speicher, ohne zwangsläufig direkten Root-Codeausführung zu garantieren.

GeForge adressiert den letzten Level des GPU-Page-Directory (PD0) und erzielt ebenfalls beliebige Speicherzugriffe auf GPU- und Host-Seite. Die praktische Einsatzfähigkeit ist jedoch eingeschränkt, da die Attacke ein deaktiviertes IOMMU voraussetzt – eine Konfiguration, die in gehärteten Rechenzentrumsumgebungen zunehmend unüblich ist. GPUBreach sticht heraus, weil der Angriff trotz aktiver IOMMU funktioniert, eine vollständige CPU-Privilegieneskalation erreicht und gleichzeitig Datenlecks sowie Modellmanipulation kombiniert.

Schutzmassnahmen und aktuelle Grenzen der Abwehr

Als kurzfristige Gegenmassnahme empfehlen die Forschenden, ECC für GPU-Speicher überall dort zu aktivieren, wo dies verfügbar ist. Studien wie ECCploit und ECC.fail haben jedoch gezeigt, dass ECC kein vollständiger Schutz ist: Werden mehr als zwei Bits in einer Speicherzelle umgeklappt, versagen gängige ECC-Schemata, was zu unentdeckter Datenkorruption führen kann. Auf Desktop- und Mobil-GPUs ohne ECC existiert derzeit kein belastbarer Hardwareschutz gegen RowHammer.

In Rechenzentren und Clouds sollten Betreiber daher zusätzliche Verteidigungsschichten etablieren: strengere Mandantentrennung (z. B. keine gemeinsame physische GPU für hochkritische und untrusted Workloads), konsequente Aktualisierung von GPU-Treibern und Firmware, sowie Monitoring auffälliger Speicherzugriffsmuster mit stark repetitiven Zugriffen auf dieselben Zeilen. Ergänzend sind Integritätsprüfungen für GPU-Page-Tables auf Treiber- oder Hypervisor-Ebene denkbar, auch wenn dies Performancekosten verursacht.

Die neuen RowHammer-Angriffe auf GPUs machen deutlich, dass GPU-Sicherheit ein zentraler Bestandteil jeder modernen Cybersecurity-Strategie werden muss – insbesondere dort, wo KI, Kryptografie und Hochleistungsrechnen eingesetzt werden. Organisationen sollten ihre Bedrohungsmodelle um GPU-basierte Angriffe erweitern, bestehende Cloud- und On-Premises-Architekturen kritisch prüfen und bei Neuplanungen frühzeitig auf RowHammer-resistente Speicher- und Treiberarchitekturen achten. Wer diese Risiken proaktiv adressiert, reduziert die Wahrscheinlichkeit, dass der eigene GPU-Stack zum Einfallstor für einen vollständigen Systemkompromiss wird.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.