84 % en Firefox 147: el número que cambia la conversación
En un benchmark de explotación real de Firefox 147, Claude Mythos Preview alcanza el 84,0 % de éxito. Claude Opus 4.6, el anterior modelo de referencia, se queda en el 15,2 %.
No es una mejora incremental. Es un salto cualitativo que coloca a Mythos en una categoría diferente.
En CyberGym Vulnerability Reproduction — un conjunto de vulnerabilidades reales a reproducir en entorno controlado — Mythos llega al 83,1 % frente al 66,6 % de Opus 4.6. La diferencia es clara, pero más contenida. El benchmark de Firefox es el que más sorprende: casi seis veces la tasa de éxito del predecesor, en una explotación end-to-end de un navegador moderno con todas las protecciones activas.
Para entender qué significa esto, hay que mirar el método. No el rendimiento, el método.
Las categorías de vulnerabilidades que Mythos identifica
El perfil documentado por Anthropic cubre categorías diversas, algunas de las cuales figuran entre las más complejas en el ámbito de la seguridad ofensiva.
Buffer overflow con signed integer overflow. Un ejemplo concreto: el bug de 27 años en OpenBSD, donde un null-pointer dereference nace de un overflow en una comparación de sequence number. No es un error evidente, sino el tipo de bug que sobrevive a décadas de revisión porque solo aparece en condiciones específicas.
Use-after-free y out-of-bounds read/write. Accesos a memoria tras la desasignación, lecturas y escrituras fuera de los límites — la fuente de la gran mayoría de vulnerabilidades críticas en los navegadores modernos.
Heap corruption con cross-cache reclamation. Técnicas que aprovechan el comportamiento del asignador de memoria para sobrescribir estructuras de datos críticas.
Ataques multi-vulnerabilidad combinados: JIT heap spray que combina cuatro vulnerabilidades distintas, browser sandbox escape con renderer-to-OS privilege escalation, ROP chain distribuida sobre varios paquetes de red. Todo en sistemas reforzados con ASLR, protección de pila y W^X activos.
Para vulnerabilidades lógicas: authentication bypass, CSRF, injection, debilidades en TLS/AES-GCM/SSH. Para el kernel: bypass de KASLR mediante kernel pointer disclosure deliberada al espacio de usuario.
Un caso especialmente nítido desde el punto de vista técnico: el bug FFmpeg H.264, donde una colisión del centinela del número de slice provoca un heap out-of-bounds write por incompatibilidad entre el tratamiento en 16 bits y 32 bits del contador.
Cómo funciona el proceso: del análisis al exploit funcional
El método tiene una estructura reconocible. Comprenderla es útil no solo para evaluar las capacidades de Mythos, sino para entender cómo un equipo técnico puede usar enfoques similares con los modelos disponibles hoy.
La primera fase es el análisis del código fuente con generación de hipótesis. El modelo no escanea mecánicamente buscando patrones conocidos. Construye un modelo mental del sistema — cómo interactúan los componentes, por dónde fluyen los datos, qué suposiciones implícitas podrían violarse — y genera hipótesis sobre dónde podrían esconderse los problemas.
La segunda fase es la prueba dinámica con depurador. Las hipótesis se verifican en un entorno contenerizado, con análisis del comportamiento en tiempo de ejecución.
La tercera fase, la que distingue a Mythos del modelo anterior, es el triage. Sonnet 4.6 mejora si se eliminan los bugs principales del contexto — no dispone de un mecanismo eficaz para filtrar autónomamente las pistas más prometedoras. Mythos identifica inmediatamente los vectores más eficaces, filtra automáticamente los findings de baja criticidad y converge sobre las vulnerabilidades que vale la pena desarrollar.
A escala industrial: aproximadamente 1.000 scans en OpenBSD a un coste de 20.000 dólares, con decenas de findings reales como resultado.
Forma a tu equipo técnico en Claude para la seguridad del código
30 minutos para discutir tu caso específico.
El reverse engineering desde binarios: una capacidad nueva e importante
Entre las capacidades documentadas, una merece atención especial por sus implicaciones prácticas.
Mythos consigue reconstruir código fuente plausible a partir de stripped binaries — ejecutables de los que se ha eliminado la información de depuración. Partiendo del código máquina, reconstruye la lógica del programa, las estructuras de datos, las suposiciones implícitas del programador. Después busca vulnerabilidades en esta reconstrucción.
El significado práctico: es posible hacer security research sobre firmware closed-source, sobre bibliotecas distribuidas únicamente en forma compilada, sobre componentes de terceros de los que no se dispone del código fuente.
Esto cambia el perímetro de la code review. Ya no se está limitado al código que uno posee. Cualquier binario que entre en el sistema — una dependencia, un componente hardware, un plugin — se vuelve analizable.
Para los equipos que trabajan en supply chain security o en el análisis de componentes legacy, esta capacidad abre un escenario que hasta hace poco requería expertos especializados y plazos mucho más largos.
Qué cambia para la code review y el secure development en los equipos
Mythos no está disponible en producción. Pero las capacidades que demuestra señalan una dirección que los equipos técnicos pueden empezar a recorrer con los modelos disponibles hoy.
Pre-commit y pull request review: integrar un análisis de seguridad sistemático en el workflow de desarrollo, no como revisión manual ocasional sino como proceso automático en cada modificación.
Vulnerability triage: cuando se trabaja en codebases legacy o se analizan dependencias, la capacidad de priorizar los findings por impacto real — en lugar de por severidad nominal — reduce el tiempo desperdiciado en problemas teóricos con baja probabilidad de explotación.
Formación contextual: entender cómo funciona un exploit en código similar al que se escribe cada día cambia cómo se escribe código seguro. No es teoría abstracta, es reconocimiento de patrones aplicado al propio contexto.
El prompt engineering para la seguridad del código es un área donde la inversión en conocimiento produce resultados medibles en poco tiempo.
Cómo formar a tu equipo en Claude para la seguridad del código
La brecha entre lo que los modelos de IA pueden hacer por la seguridad del código y lo que los equipos técnicos utilizan realmente sigue siendo amplia. No por falta de capacidades de los modelos, sino por falta de método y práctica.
Usar Claude para code review requiere saber cómo estructurar las solicitudes, cómo proporcionar contexto, cómo interpretar los resultados y dónde el modelo tiende a equivocarse. No es complicado, pero requiere práctica con casos reales.
Los talleres de Maverick AI para equipos técnicos parten de aquí: no de la teoría sobre los modelos, sino de la aplicación directa al código del equipo. Se trabaja con Claude Code para el análisis del código fuente, se construye un workflow de code review asistida por IA adaptado al contexto específico, y se practica con vulnerabilidades de tipologías análogas a las presentes en la codebase.
El objetivo no es que el equipo sepa qué puede hacer Mythos. Es que use Claude cada día para escribir código más seguro, encontrar problemas antes de que lleguen a producción y reducir el tiempo dedicado a la code review manual de patrones que un modelo reconoce en segundos.
Si quieres entender cómo estructurar un recorrido así para tu equipo, hablemos.