Anthropic ha denunciado una campaña de gran escala para la distilación de su modelo de lenguaje Claude, supuestamente ejecutada por tres compañías chinas de inteligencia artificial: DeepSeek, Moonshot AI y MiniMax. Según la empresa, más de 16 millones de peticiones fueron realizadas a su API a través de más de 24 000 cuentas falsas, pese a que el uso comercial de sus servicios en China está oficialmente restringido.
Qué es la distilación de modelos de lenguaje y por qué preocupa a la ciberseguridad
La distilación de modelos es una técnica legítima de machine learning en la que un modelo más pequeño (el “estudiante”) aprende a imitar las respuestas de un modelo más potente (el “profesor”). Este enfoque permite comprimir grandes modelos de lenguaje (LLM) y reducir costes de cómputo, manteniendo buena parte de su rendimiento sin entrenar desde cero sobre los datos originales.
El problema surge cuando esta técnica se usa para replicar capacidades comerciales de un modelo propietario sin autorización. En lugar de invertir miles de millones en entrenar su propia LLM, una organización puede intentar usar el modelo de un competidor como atajo, extrayendo sus capacidades a través de la API. Desde la perspectiva de la ciberseguridad y la protección de propiedad intelectual, esto se aproxima a un “robo de modelo”, aunque el acceso se haya pagado, si el objetivo es clonar sistemáticamente el comportamiento del sistema.
Cómo se habría ejecutado la campaña: hydra clusters, proxys y cuentas falsas
Anthropic describe una infraestructura diseñada para evadir controles de seguridad y límites de uso de la API, basada en lo que denomina hydra clusters: clústeres distribuidos formados por miles de cuentas coordinadas, a menudo en combinación con servicios de proxy comerciales que revenden acceso a modelos líderes del mercado.
En uno de los casos, una sola red de proxy habría gestionado más de 20 000 cuentas simultáneamente, mezclando tráfico legítimo de clientes con peticiones destinadas a distilación masiva. Esta estrategia complica el uso de mecanismos tradicionales de detección de abusos, basados en picos de actividad anómalos o en la identificación de unos pocos usuarios maliciosos.
DeepSeek: evaluación de razonamiento y moderación política
De acuerdo con Anthropic, DeepSeek habría realizado más de 150 000 interacciones con Claude. El foco principal habría estado en las capacidades de razonamiento lógico y en la generación de respuestas “políticamente seguras” sobre temas sensibles, tratando de entender cómo el modelo aplica sus mecanismos de moderación y cumplimiento normativo sin perder apariencia de neutralidad.
Moonshot AI: autonomía, herramientas y visión por computador
En el caso de Moonshot AI, Anthropic atribuye más de 3,4 millones de peticiones a un patrón de pruebas centrado en capacidades autónomas de la LLM, programación, uso de herramientas externas y funciones de visión por computador. Este tipo de tráfico es típico de intentos de reproducir cadenas complejas de razonamiento e integración de la IA en sistemas productivos.
MiniMax: énfasis en código y captura rápida de nuevas versiones
La mayor parte del volumen se asocia a MiniMax, con más de 13 millones de intercambios. El foco habría sido la generación y análisis de código, un área crítica para el desarrollo de asistentes de programación. Casi la mitad de ese tráfico se redirigió rápidamente a la versión más reciente de Claude tras su lanzamiento, lo que sugiere un esfuerzo sistemático por capturar un “snapshot” actualizado del modelo en el menor tiempo posible.
Chips de IA, exportaciones y seguridad nacional
Anthropic subraya que una campaña de distilación de esta escala exige acceso a recursos de cómputo avanzados y chips de IA de alto rendimiento. El mensaje se alinea con el debate en Estados Unidos sobre controles de exportación de GPU hacia China y sobre el impacto de facilitar hardware especializado que podría acelerar el desarrollo de modelos avanzados sin mecanismos de seguridad robustos.
Desde la óptica de la seguridad nacional, modelos derivados de una distilación no autorizada suelen carecer de guardarraíles de seguridad y filtros de contenidos comparables a los originales. Esto incrementa el riesgo de que se utilicen para ciberataques, operaciones de desinformación a gran escala, vigilancia automatizada y otras actividades ofensivas donde las restricciones éticas y regulatorias son mínimas.
Medidas defensivas: huella de comportamiento y protección de API de IA
Como respuesta, Anthropic afirma haber desplegado clasificadores y sistemas de “behavioral fingerprinting” para analizar el tráfico hacia su API. Estas soluciones crean perfiles de comportamiento normal de clientes y buscan patrones característicos de recolección masiva de respuestas: consultas repetitivas, alta densidad de llamadas, rutas atípicas a través de proxys o rotación inusual de cuentas.
Además, la compañía indica que introduce mecanismos que reducen el valor de las respuestas cuando se detectan indicios de distilación, como cierta aleatorización, limitación de la profundidad de las explicaciones o controles adicionales de contexto. Desde la perspectiva de la defensa de APIs, esto se combina con técnicas clásicas de rate limiting, detección de anomalías y analítica de comportamiento para construir una protección en múltiples capas.
Críticas por doble rasero y uso de datos para entrenar modelos de IA
El comunicado de Anthropic ha generado una fuerte reacción en la comunidad tecnológica. Numerosos comentarios recuerdan los litigios y acuerdos millonarios relacionados con el uso de libros sin licencia y contenido web para entrenar modelos como Claude, así como demandas vinculadas al scraping de plataformas como Reddit, según información pública disponible en Estados Unidos.
Los críticos señalan una aparente doble vara de medir: una empresa que ha entrenado sus modelos sobre datos generados por millones de autores y editores, a menudo sin compensación directa, acusa ahora a competidores de emplear técnicas análogas sobre su propio producto. Subrayan además que, en este caso, las compañías chinas pagaban por el acceso a la API, mientras que muchos creadores de contenido usado para entrenar LLM no han recibido remuneración.
El caso de la distilación de Claude muestra que la protección de modelos de IA se ha convertido en un nuevo frente de la ciberseguridad. No se trata solo de evitar intrusiones o fugas de datos, sino también de detectar “robos de capacidades” a través de APIs, granjas de cuentas y clústeres de proxys. Para las organizaciones que desarrollan IA avanzada, resulta clave combinar controles estrictos de acceso, monitorización de anomalías, análisis de comportamiento y marcos jurídicos claros sobre el uso de datos. Para empresas y usuarios que adoptan estas tecnologías, seguir de cerca estos casos permite evaluar no solo el rendimiento de un modelo, sino también los riesgos asociados a su origen, su entrenamiento y la forma en que se protege frente a abusos.