LLM-De-Anonymisierung: Wie grosse Sprachmodelle anonyme Online-Profile enttarnen

CyberSecureFox 🦊

Die weit verbreitete Annahme, ein Pseudonym in sozialen Netzwerken sichere ausreichend Anonymitaet, geraet zunehmend ins Wanken. Eine aktuelle Studie von ETH Zurich, dem Programm MATS (ML Alignment & Theory Scholars) und Anthropic zeigt, dass moderne grosse Sprachmodelle (Large Language Models, LLM) bereits heute in der Lage sind, anonyme Accounts in grossem Massstab zu de-anonymisieren.

Neue Studie: Grosse Sprachmodelle erkennen Nutzer hinter Pseudonymen

Im Zentrum der Untersuchung stand die Frage, wie gut LLM dabei abschneiden, anonyme Online-Profile konkreten Personen zuzuordnen. Die Modelle erhielten ausschliesslich oeffentliche Inhalte, nicht jedoch offensichtliche Identifikatoren wie Klarnamen, Nutzernamen oder direkte Links.

Die Ergebnisse sind aus Sicht der Cybersicherheit deutlich: In einzelnen Szenarien erreichten die Modelle bis zu 68 % Recall (Anteil der tatsaechlich de-anonymisierten Accounts) und bis zu 90 % Precision (Anteil der korrekten Zuordnungen unter allen „Treffern“). Solche Werte sind fuer automatisierte De-Anonymisierung bemerkenswert hoch.

Zum Vergleich: Klassische Ansaetze basieren haeufig auf manuell kuratierten, strukturierten Datensaetzen und statistischen Methoden. Sie sind ressourcenintensiv und liefern meist deutlich geringere Trefferquoten. LLM hingegen koennen unstrukturierte Texte direkt verarbeiten und schwache, verteilte Signale erkennen, die bislang kaum automatisiert nutzbar waren.

Versuchsaufbau: Hacker News, LinkedIn, Netflix und Reddit im Test

Die Forschenden arbeiteten ausschliesslich mit oeffentlich zugaenglichen Informationen. Dadurch sind die Ergebnisse besonders relevant fuer reale Szenarien – etwa fuer Open-Source-Intelligence (OSINT) oder automatisierte Profilbildung.

Hacker News und LinkedIn: Cross-Plattform-Zuordnung

In einem Setting wurden Beitraege von Nutzern auf Hacker News mit ihren LinkedIn-Profilen verknuepft. Zunaechst nutzten die Forschenden eindeutige Hinweise wie Namen oder Links, um Ground-Truth-Paare zu bilden. Danach entfernten sie alle expliziten Identifikatoren und liessen die LLM ausschliesslich anhand des Inhalts die Zuordnung rekonstruieren.

Netflix-Daten: Wiederkehrende Risiken bei Empfehlungsdaten

Ein weiterer Datensatz ging auf historische Daten von Netflix zurueck: Seh- und Bewertungsverhalten, Empfehlungen sowie Transaktionshistorien. Bereits 2008 hatten Narayanan und Shmatikov in einer viel zitierten Analyse des Netflix Prize-Datensatzes gezeigt, dass sich Nutzer ueber scheinbar anonyme Filmbewertungen mithilfe externer Quellen wie IMDb identifizieren lassen. Die neue Studie verdeutlicht, dass LLM solche Angriffe automatisieren und skalieren koennen – bei deutlich geringerem manuellen Aufwand.

Reddit: Stil, Interessen und der „sprachliche Fingerabdruck“

Besonders eindruecklich ist der Versuch mit Reddit. Die Forschenden segmentierten Kommentarhistorien in einzelne Textfragmente und liessen LLM entscheiden, ob verschiedene Fragmente von derselben Person stammen. Dabei nutzten die Modelle Stilmerkmale (Wortwahl, Satzstruktur) und Themenpraeferenzen – ein Vorgehen, das an die seit Jahren etablierte Stylometrie anknuepft.

Auf den Subreddits r/movies sowie r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm und r/MovieDetails zeigte sich: Je mehr Filme ein Nutzer diskutiert, desto leichter ist er wiederzuerkennen. Bei einer Ziel-Precision von 90 % konnten erfolgreich de-anonymisiert werden:

3,1 % der Nutzer mit nur einem besprochenen Film, 8,4 % mit fuenf bis neun Filmen und bereits 48,1 % der Nutzer, die zu zehn oder mehr Filmen kommentiert hatten. Alltaegliche Hobbys werden damit zu einem stabilen, maschinenlesbaren Profilmerkmal.

In einem weiteren Test analysierten die Forschenden Antworten von 125 Teilnehmenden einer Anthropic-Umfrage zu ihrem taeglichen Umgang mit KI. Allein auf Basis freier Textantworten gelang es den Modellen, rund 7 % der Befragten eindeutig zu identifizieren. Der Wert erscheint moderat, doch die Moeglichkeit, Personen aus unstrukturiertem Freitext zu erkennen, gilt in der Sicherheitsforschung als deutliches Warnsignal.

Warum LLM bei der De-Anonymisierung klassischen Methoden ueberlegen sind

In einem dritten gross angelegten Experiment verglichen die Forschenden LLM mit einem klassischen statistischen Ansatz nach dem Vorbild der Netflix-Prize-Attacke. Grundlage waren Daten von 5000 realen Reddit-Usern und 5000 synthetischen „Fake“-Profilen. Waehrend die traditionelle Methode mit wachsender Komplexitaet rasch an Genauigkeit verlor, blieben die Leistungen der LLM stabil und deutlich zuverlaessiger.

Der wesentliche Unterschied: LLM analysieren nicht nur harte Merkmale wie Zeitstempel oder Ueberschneidungen bei Themen und Filmen, sondern auch semantische Inhalte und Schreibstil. Aus Wortwahl, Satzbau, Argumentationsmustern und wiederkehrenden Interessensprofilen entsteht ein sprachlicher Fingerabdruck, der auch ohne eindeutige Identifikatoren eine hochgradig praezise Wiedererkennung ermoeglicht.

Konkrete Risiken fuer Nutzer, Unternehmen und Staaten

Mit steigender Genauigkeit und Skalierbarkeit solcher Verfahren geraten mehrere Bereiche in den Fokus der IT-Sicherheits- und Datenschutzpraxis:

Regierungen koennten LLM nutzen, um anonyme Kritiker oder oppositionelle Stimmen ueber Plattformen hinweg aufzuspuren. In Staaten mit schwachen Rechtsstaatlichkeitsstandards wuerde dies die ohnehin fragile Meinungsfreiheit weiter einschraenken.

Konzerne und Werbenetzwerke erhalten theoretisch die Moeglichkeit, extrem praezise Verhaltens- und Interessenprofile zu erstellen – auch dann, wenn Nutzer bewusst unterschiedliche Pseudonyme auf verschiedenen Plattformen verwenden. Bereits heute zeigen Studien der Werbeindustrie, dass personalisierte Anzeigen die Klickrate um ein Vielfaches steigern koennen; LLM-de-anonymisierte Profile wuerden diese Entwicklung weiter verschaerfen.

Cyberkriminelle koennen LLM-gestuetzte De-Anonymisierung fuer gezielte Angriffe nutzen: Social-Engineering-Kampagnen, Spear-Phishing, Erpressung oder Doxxing werden umso effektiver, je genauer ein Angreifer weiss, welche Person sich hinter einem Nickname verbirgt und welche Interessen, Kontakte oder Schwachstellen sie hat.

Schutzmassnahmen gegen KI-gestuetzte De-Anonymisierung

Die Studie macht deutlich, dass klassische „Anonymisierung“ – etwa das Entfernen von Namen oder E-Mail-Adressen – allein nicht mehr ausreicht. Erforderlich ist ein ganzheitlicher Umgang mit dem digitalen Fussabdruck, an dem Plattformen, LLM-Anbieter und Endnutzer gleichermassen beteiligt sind.

Plattformbetreiber sollten insbesondere:

API-Zugriffe limitieren (Rate-Limits, strenge Authentifizierung),
– automatisiertes Scraping und Massenexport von Inhalten erkennen und blockieren,
– Privacy-by-Design-Ansatze in Empfehlungs- und Profilsysteme integrieren.

LLM-Anbieter koennen auf mehreren Ebenen ansetzen:

– klare Nutzungsrichtlinien, die De-Anonymisierungszwecke explizit untersagen,
– technische Mechanismen, die typische De-Anonymisierungsanfragen erkennen und auf Infrastrukturebene unterbinden,
– Monitoring und Audits, um missbraeuchliche Nutzungsmuster fruehzeitig zu identifizieren.

Endnutzer sollten ihre persoenliche Bedrohungsmodellierung anpassen und insbesondere:

– identische Nutzernamen, Bios und Links ueber Plattformen hinweg vermeiden,
– persoenliche Details in oeffentlichen Beitraegen minimieren,
– berufliche und private Aktivitaeten auf getrennten Accounts fuehren,
Privatsphaeren-Einstellungen regelmaessig pruefen und anpassen,
– sich bewusst sein, dass auch Stil und Themenwahl Rueckschluesse auf die eigene Person ermoeglichen.

Die Entwicklung grosser Sprachmodelle zeigt, dass Pseudonyme und formale Anonymisierung zunehmend an Schutzwirkung verlieren. Entscheidend ist nicht mehr nur, welche Datenfelder eine Plattform ausblendet, sondern welchen Gesamt-Fussabdruck eine Person im Netz hinterlaesst – in Sprache, Verhalten und Beziehungsgeflechten. Wer die eigene digitale Identitaet langfristig schuetzen will, sollte fruehzeitig in robuste Privatsphaere-Strategien investieren, Sicherheitspraktiken auf den neuesten Stand bringen und die Moeglichkeiten von LLM-basierten De-Anonymisierungsangriffen in die eigene Cybersecurity-Planung einbeziehen.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.