LLM y deanonimización: el fin del anonimato cómodo en redes sociales y foros

CyberSecureFox 🦊

La idea de que basta con usar un seudónimo para mantener el anonimato en redes sociales está quedando obsoleta. Un estudio reciente de ETH Zurich, el programa MATS (ML Alignment & Theory Scholars) y Anthropic muestra que los grandes modelos de lenguaje (LLM) ya son capaces de deanonimizar masivamente cuentas de usuarios a partir de su actividad pública, alcanzando hasta un 68% de recall y un 90% de precision en algunos escenarios.

Deanonimización con inteligencia artificial: cómo los LLM vinculan perfiles anónimos

En ciberseguridad, la deanonimización consiste en vincular un perfil supuestamente anónimo con una persona concreta utilizando datos indirectos. El estudio demuestra que los LLM pueden realizar esta tarea con eficacia superior a los métodos tradicionales, que dependen de la construcción manual de conjuntos de datos estructurados y de análisis estadísticos más limitados.

A diferencia de estos enfoques clásicos, los LLM trabajan directamente con texto no estructurado y extraen señales débiles: temas recurrentes, forma de escribir, combinaciones de intereses y patrones de comportamiento que, sumados, constituyen una auténtica huella digital lingüística. Esto permite identificar usuarios incluso cuando se han eliminado nombres, alias y enlaces evidentes.

Metodología: Hacker News, LinkedIn, Netflix y Reddit como laboratorios de anonimato

Los investigadores utilizaron únicamente datos públicos. En uno de los experimentos, vincularon publicaciones de usuarios en Hacker News con sus perfiles en LinkedIn, basándose inicialmente en menciones cruzadas. Posteriormente, borraron todos los identificadores explícitos y pidieron a los LLM que reconstruyeran las correspondencias solo a partir del contenido de los mensajes.

Otro conjunto de datos procedía de históricos de uso de Netflix, incluyendo preferencias, recomendaciones, registros de visionado y transacciones. El experimento recuerda al conocido caso de la Netflix Prize, en el que ya se demostró hace años que las valoraciones “anónimas” de películas podían reidentificarse combinándolas con fuentes externas. La diferencia es que, con LLM, esta clase de ataques se vuelve mucho más automatizable, escalable y barata.

En un tercer escenario, se fragmentó el historial de comentarios de usuarios de Reddit. El modelo debía decidir si distintos trozos de texto pertenecían a la misma persona, apoyándose en el estilo de escritura y en los intereses manifestados, una forma de estilometría aplicada con inteligencia artificial.

Comunidades de cine y encuestas de uso de IA: resultados ilustrativos

Los resultados en subreddits de cine como r/movies y comunidades afines (r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm, r/MovieDetails) son especialmente reveladores. A una precisión del 90%, los LLM lograron deanonimizar el 3,1% de quienes comentaron una única película, el 8,4% de los que hablaron de cinco a nueve títulos y hasta el 48,1% de los usuarios que discutieron diez o más filmes. Cuanto mayor es la actividad, más definido se vuelve el “perfil cinematográfico” como huella digital.

En otro experimento se analizaron las respuestas abiertas de 125 participantes a una encuesta de Anthropic sobre el uso cotidiano de la IA. Solo con el contenido textual, los LLM pudieron identificar con precisión alrededor del 7% de los encuestados. Aunque el porcentaje parezca modesto, es un indicador preocupante: con poco texto libre y sin estructura, ya es posible reidentificar a individuos concretos.

Por qué los grandes modelos de lenguaje agravan el riesgo para la privacidad online

En una prueba adicional, los investigadores compararon un ataque clásico al estilo Netflix Prize con un enfoque basado en LLM, usando datos de 5000 usuarios reales de Reddit y 5000 perfiles falsos. Mientras el método estadístico tradicional perdía rápidamente precisión a medida que la tarea se volvía más compleja, los LLM mantuvieron resultados más estables y fiables.

La diferencia clave es que los LLM integran múltiples capas de señal: no solo horarios de actividad o coincidencias en temas, sino también semántica, estilo, vocabulario, estructuras sintácticas y patrones de interés. En conjunto, esto constituye un “patrón de escritura” casi único. Combinado con scraping masivo, abre la puerta a que gobiernos, grandes corporaciones o actores maliciosos identifiquen a críticos anónimos, construyan perfiles publicitarios hipersegmentados o perfeccionen ataques dirigidos de ingeniería social, phishing, extorsión y doxing.

Medidas de ciberseguridad: cómo defender el anonimato frente a la deanonimización con LLM

El estudio subraya que mitigar estos riesgos exige la acción coordinada de plataformas, proveedores de IA y usuarios. A las plataformas se les recomienda limitar la frecuencia y el volumen de acceso vía API a contenidos de usuarios, desplegar sistemas de detección de scraping automatizado y restringir la exportación masiva de datos que puedan usarse para deanonimización. Tecnologías como la privacidad diferencial o la agregación de datos pueden reforzar la protección.

Los proveedores de LLM, por su parte, deberían incorporar políticas de uso que prohíban explícitamente la deanonimización de personas, así como mecanismos técnicos para identificar y bloquear patrones de consulta destinados a vincular identidades entre plataformas. Estas medidas deberían alinearse con marcos regulatorios como el RGPD europeo o las iniciativas emergentes de regulación de la IA.

Para los usuarios, el mensaje es claro: conviene revisar el propio modelo de amenazas personal. Es recomendable evitar reutilizar el mismo alias en distintas redes, no enlazar de forma cruzada perfiles personales y profesionales, reducir al mínimo los detalles identificativos en publicaciones públicas, separar actividades laborales y privadas en cuentas diferentes y auditar periódicamente la configuración de privacidad en cada servicio.

El avance de los grandes modelos de lenguaje demuestra que la simple “anonimización” superficial ya no basta. Proteger la identidad digital exige gestionar de forma consciente la huella lingüística y de comportamiento que se deja en múltiples plataformas. Adoptar buenas prácticas de ciberseguridad y formarse de manera continua en privacidad online es hoy una necesidad estratégica para usuarios, organizaciones y reguladores que quieran conservar el control sobre su identidad en la red.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.