HackerOne, inteligencia artificial y bug bounty: el debate sobre el uso de datos de investigadores

CyberSecureFox 🦊

La plataforma de bug bounty HackerOne, una de las mayores del sector, se ha convertido en el centro de un intenso debate sobre el uso de inteligencia artificial (IA) y el tratamiento de los datos que generan los investigadores de seguridad. La polémica surge a raíz de dudas dentro de la comunidad acerca de si los informes de vulnerabilidades podrían estar utilizándose para entrenar modelos de IA sin un consentimiento explícito.

HackerOne y Agentic PTaaS: IA autónoma aplicada al pentesting continuo

El detonante fue el anuncio de Agentic PTaaS, un servicio que HackerOne presenta como “pruebas de seguridad continuas con agentes de IA autónomos y experiencia humana”. Según la compañía, estos agentes se apoyan en una base de conocimiento propietaria sobre exploits, construida a partir de años de pruebas en entornos empresariales reales.

La referencia a una “base de conocimiento acumulada durante años” hizo saltar la alarma: ¿de qué fuentes se alimenta exactamente esa base y hasta qué punto incluye informes de vulnerabilidades enviados por investigadores? Varios profesionales de la comunidad bug bounty expresaron públicamente su preocupación de que su trabajo pudiera estar sirviendo como conjunto de entrenamiento para modelos de IA sin un mecanismo claro de opt-in/opt-out.

En el ámbito del bug bounty, donde los investigadores suelen compartir detalles altamente sensibles de infraestructura, código y vulnerabilidades críticas, la percepción de que su aportación pueda reutilizarse para fines distintos a los pactados puede erosionar la confianza y empujar conocimiento valioso hacia canales menos transparentes.

Posición oficial de HackerOne sobre IA generativa y protección de datos

Ante el creciente malestar, la CEO de HackerOne, Kara Sprague, publicó un comunicado aclaratorio. En él afirmó que HackerOne no utiliza los informes de investigadores ni los datos confidenciales de clientes para entrenar modelos de IA generativa, ya sean propios o de terceros.

Sprague subrayó que estos datos tampoco se emplean para la afinación (fine-tuning) de modelos existentes. Según la directiva, los contratos con proveedores de IA incluyen cláusulas explícitas que les prohíben almacenar o reutilizar datos de investigadores y clientes para entrenar sus modelos. Este enfoque está alineado con las prácticas que grandes proveedores de servicios de IA en la nube ofrecen a clientes corporativos, como los llamados modos “no-training”.

En paralelo, HackerOne impulsa HackerOne Hai, una plataforma de soporte basada en IA destinada a agilizar la revisión de reportes, la generación de recomendaciones de mitigación y la gestión de recompensas. La compañía insiste en que este uso de la IA se diseña para no comprometer la confidencialidad ni la autoría del trabajo de los bug hunters. Además, ha anunciado la actualización de sus Terms and Conditions para reflejar explícitamente estas garantías.

Plataformas rivales: política de IA transparente como factor de confianza

Intigriti: la propiedad intelectual de los informes es del investigador

La controversia en torno a HackerOne ha llevado a otras plataformas a posicionarse de forma pública. El fundador y CEO de Intigriti, Stijn Jans, recalcó que la empresa considera los hallazgos de los investigadores como su propiedad intelectual y defendió abiertamente que “tu trabajo te pertenece”.

De acuerdo con Intigriti, sus herramientas de IA se enfocan en optimizar la tramitación de reportes y mejorar la comunicación entre investigadores y clientes, y no en construir modelos cerrados entrenados con los descubrimientos de terceros.

Bugcrowd: restricciones estrictas al entrenamiento de modelos de IA

Por su parte, Bugcrowd ha plasmado su postura directamente en sus términos de uso: a terceros se les prohíbe entrenar modelos de IA o LLM utilizando datos de investigadores o clientes. Al mismo tiempo, exige a los bug hunters un uso responsable de la IA generativa, rechazando reportes generados automáticamente que no hayan sido verificados manualmente.

Este equilibrio —aprovechar la IA para ganar eficiencia sin sacrificar la transparencia ni la protección de datos— se está convirtiendo en un rasgo diferenciador clave en el mercado de plataformas de bug bounty.

Riesgos de entrenar IA con informes de vulnerabilidades críticas

Los programas de bug bounty suelen exponer vulnerabilidades de alta criticidad, información interna de sistemas, trazas de logs y fragmentos de código. Incluir este material en conjuntos de entrenamiento para modelos de IA generativa abre varios frentes de riesgo.

En primer lugar, existe el riesgo de fuga de información a través del modelo. La investigación académica ha demostrado que ciertos modelos pueden memorizar y reproducir fragmentos de datos sensibles. En el contexto de vulnerabilidades zero-day, una filtración de este tipo podría facilitar la explotación masiva antes de que las organizaciones apliquen parches.

En segundo lugar, se ve comprometido el principio de minimización de datos, presente en marcos regulatorios como el RGPD (GDPR) y en las discusiones del EU AI Act. Cualquier empresa que utilice IA en ciberseguridad debe acreditar bases legales claras para el tratamiento de datos tan sensibles y documentar con rigor sus finalidades y límites.

En tercer lugar, una percepción de aprovechamiento injusto del trabajo de los investigadores, sin recompensa adicional ni condiciones transparentes, ataca directamente la motivación de la comunidad. Informes como Verizon DBIR o análisis de ENISA vienen alertando de que muchos ataques explotan vulnerabilidades ya conocidas pero no corregidas; desincentivar a los investigadores puede tener un impacto directo en la superficie de exposición de las organizaciones.

El caso de HackerOne ilustra que, en la era de la IA, la transparencia sobre el uso de datos de bug bounty se ha convertido en un criterio esencial para elegir socios de ciberseguridad. Tanto empresas como investigadores deberían revisar con detalle las políticas de IA, privacidad y condiciones de uso de cada plataforma, plantear preguntas directas sobre cómo y dónde se emplean los reportes y, cuando sea posible, exigir mecanismos claros de consentimiento para cualquier forma de entrenamiento de modelos. En un ecosistema en el que la confianza es tan crítica como la tecnología, las organizaciones que adopten reglas claras y comprensibles alrededor de la IA estarán mejor posicionadas para proteger sus activos y atraer al talento investigador más cualificado.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.