Un experimento conjunto de Anthropic y Mozilla ha demostrado que los modelos de lenguaje grandes (LLM) ya son capaces de encontrar vulnerabilidades a la altura de un navegador de clase industrial. El modelo Claude Opus 4.6 identificó de forma automatizada 22 fallos de seguridad en Firefox, varios de ellos de alta criticidad, todos ya corregidos en Firefox 148.
Resultados clave: 22 vulnerabilidades en dos semanas de análisis con IA
De acuerdo con los datos publicados, Claude Opus 4.6 detectó 22 vulnerabilidades en el código de Firefox. La clasificación final fue la siguiente: 14 fallos de alta gravedad, 7 de severidad media y 1 de impacto bajo. Según Mozilla, esto representa casi una quinta parte de todos los bugs de alta prioridad corregidos en el navegador durante 2025, obtenidos en apenas unas dos semanas de trabajo asistido por IA.
Los primeros resultados llegaron en cuestión de minutos. A los 20 minutos del inicio del análisis, la IA ya había identificado una vulnerabilidad de tipo use-after-free en el motor JavaScript. Este tipo de error se produce cuando una región de memoria se libera y, aun así, el programa la vuelve a utilizar. En navegadores, los use-after-free suelen ser vectores de ejecución de código arbitrario si un atacante consigue explotarlos con éxito.
Cada posible vulnerabilidad reportada por la IA fue posteriormente revisada y validada por ingenieros humanos dentro de entornos virtuales aislados, lo que garantiza que los hallazgos no se basen solo en conjeturas estáticas, sino en pruebas reproducibles de explotación.
Análisis técnico: 6000 archivos C++ y más de 100 informes de riesgo
En términos de alcance, Claude Opus 4.6 analizó alrededor de 6000 archivos en C++ pertenecientes al código de Firefox. A partir de este análisis generó 112 informes únicos de posibles problemas de seguridad. El equipo de seguridad de Mozilla filtró estos hallazgos, confirmó cuáles eran vulnerabilidades reales y desarrolló los parches correspondientes.
Mozilla confirmó también que, más allá de las 22 vulnerabilidades corregidas, la revisión impulsada por IA permitió localizar alrededor de 90 defectos adicionales, incluyendo assertion failures y errores lógicos complejos. Este tipo de fallos suele escapar a técnicas tradicionales como el fuzzing (inyección masiva de entradas aleatorias para provocar fallos) o el análisis estático clásico, lo que subraya el valor de un enfoque híbrido.
IA, fuzzing y análisis estático: un enfoque híbrido en AppSec
El experimento respalda una tendencia que ya señalan organismos como ENISA y grupos de investigación como Google Project Zero: combinar fuzzing, análisis estático e inteligencia artificial mejora significativamente la seguridad de aplicaciones (AppSec). Los LLM pueden razonar sobre flujos de datos, estados internos y condiciones lógicas sutiles, mientras que las herramientas tradicionales destacan en la búsqueda masiva y sistemática de fallos de memoria o corrupción de datos.
¿Puede la IA escribir exploits funcionales para navegadores?
Una parte clave del experimento fue comprobar si la IA es capaz no solo de detectar vulnerabilidades, sino también de generar exploits funcionales. Para ello se proporcionó a Claude Opus 4.6 un listado de fallos confirmados y se le solicitó crear escenarios de ataque. Se realizaron varios cientos de intentos, con un coste aproximado de 4000 dólares en llamadas a la API.
El resultado fue que la IA solo consiguió elaborar exploits operativos para dos vulnerabilidades. Uno de ellos se dirigía a CVE-2026-2796, una vulnerabilidad crítica (puntuación 9,8 en CVSS) en el compilador JIT de JavaScript para WebAssembly. No obstante, el exploit solo funcionaba en un entorno de pruebas en el que se desactivaron de forma deliberada defensas clave, como la sandbox del navegador y otros mecanismos de endurecimiento.
Sin cadenas de exploits ni escape de sandbox… por ahora
Anthropic señala que, en el estado actual, Claude no es capaz de diseñar cadenas complejas de explotación que combinen varias vulnerabilidades para escapar de la sandbox del navegador y lograr ejecución persistente de código en el sistema de la víctima. Este tipo de cadenas de exploits son las que se observan en ataques de día cero contra navegadores modernos, donde se encadenan errores de memoria, fallos lógicos y bypass de mitigaciones.
Aun así, los investigadores consideran poco probable que el desfase entre la capacidad de encontrar vulnerabilidades y la de explotarlas se mantenga grande durante mucho tiempo. A medida que los modelos de IA accedan a más ejemplos reales de exploits y conjuntos de datos específicos de seguridad ofensiva, es razonable prever una mejora progresiva en la automatización de la explotación.
Implicaciones para la industria de ciberseguridad y los equipos de desarrollo
Este experimento sitúa a la inteligencia artificial en ciberseguridad como un instrumento central de AppSec, no solo como un apoyo puntual. Para proyectos complejos y con décadas de historial, como Firefox, los LLM pueden:
— acelerar la detección de errores lógicos complejos y condiciones de carrera raras;
— complementar el fuzzing y la auditoría manual, aumentando la cobertura de análisis;
— asistir en el análisis de regresiones tras grandes refactorizaciones o nuevas funcionalidades.
Sin embargo, las mismas capacidades que fortalecen a los defensores podrían, en el medio plazo, estar al alcance de atacantes para un búsqueda y explotación masiva y automatizada de vulnerabilidades. Esto refuerza la necesidad de contar con gestión de parches ágil, arquitecturas de defensa en profundidad y prácticas de programación segura desde las fases tempranas del ciclo de desarrollo.
En conjunto, los resultados de Claude Opus 4.6 sobre Firefox indican que ignorar la IA en los procesos de seguridad ya no es una opción realista. Las organizaciones que desarrollan software crítico deberían avanzar hacia programas de bug bounty proactivos, integrar herramientas de análisis de código basadas en IA y revisar de forma periódica su modelo de amenazas. Aprovechar la inteligencia artificial de forma responsable hoy es clave para mantener la resiliencia de la infraestructura digital ante un futuro en el que estos mismos modelos estarán disponibles tanto para defensores como para atacantes.