Un modelo que Anthropic no quiere vender
SWE-bench Verified es la prueba que mide la capacidad de un modelo para resolver bugs reales en repositorios públicos de GitHub. Claude Opus 4.6 — el mejor modelo disponible hoy — obtiene 80,8 %. Mythos Preview obtiene 93,9 %.
No es un salto marginal. Es la diferencia entre un ingeniero senior y un equipo entero.
Anthropic ha desarrollado Mythos Preview pero ha elegido conscientemente no hacerlo disponible al público. No por limitaciones técnicas, sino por razones de seguridad: las capacidades del modelo en ámbitos críticos como la ciberseguridad y la explotación de software son tan elevadas que requieren un control de acceso mucho más riguroso del que una API pública puede garantizar.
Lo que Mythos Preview puede hacer y Opus 4.6 no consigue
Los números en los benchmarks estándar ya son sorprendentes. Pero la parte más interesante tiene que ver con las capacidades en el ámbito de la seguridad informática.
En Firefox 147 Exploitation — una prueba que mide la capacidad de aprovechar vulnerabilidades reales en un navegador moderno — Opus 4.6 obtiene 15,2 %. Mythos Preview obtiene 84 %. Una brecha que no se mide en puntos porcentuales: se mide en órdenes de magnitud.
Mythos Preview encontró de forma autónoma un bug en OpenBSD que había permanecido oculto durante 27 años, una vulnerabilidad en FFmpeg que había escapado a cinco millones de pruebas automáticas, y vulnerabilidades en el kernel Linux. Estos no son benchmarks construidos a medida: son sistemas reales, en producción, que miles de millones de personas usan cada día.
El salto en las capacidades de coding y razonamiento
En SWE-bench Pro — una variante más difícil con tareas de ingeniería de software reales — Opus 4.6 se queda en 53,4 %. Mythos Preview sube a 77,8 %.
Traducido a la práctica: Mythos Preview es capaz de tomar una codebase compleja, entender la arquitectura, identificar el problema y proponer una solución funcional con una tasa de éxito que supera la de muchos equipos de desarrollo humanos en tareas de dificultad media.
También en CyberGym Vulnerability Reproduction — la reproducción de vulnerabilidades conocidas en entornos controlados — la brecha es clara: 83,1 % frente al 66,6 % de Opus 4.6. Para quienes construyen herramientas de seguridad o trabajan en el ámbito defensivo, esto significa acceso a capacidades de análisis y detección que hoy no existen en ningún otro lugar.
¿Quiere aprovechar al máximo Claude en su empresa?
30 minutos para discutir tu caso específico.
Qué significa para las organizaciones que adoptan Claude hoy
La primera reacción ante noticias como esta suele ser: entonces espero. ¿Tiene sentido esperar a Mythos?
La respuesta es no, y vale la pena entender por qué.
Mythos Preview no es una evolución de Opus 4.6 que estará disponible pronto. Es un modelo de investigación con capacidades que requieren un control de acceso específico. Su lanzamiento público, si alguna vez ocurre, estará condicionado a la securización de esas mismas capacidades que lo hacen poderoso.
Mientras tanto, cada semana que pasa sin implementar Claude en la empresa es una semana de ventaja regalada a los competidores que ya se están moviendo. El ecosistema Claude — desde los modelos accesibles hoy hasta las herramientas de desarrollo, desde MCP hasta los agentes — ya es extraordinariamente capaz.
El modelo al que tiene acceso hoy ya es extraordinario
Claude Opus 4.6 resuelve el 80,8 % de los bugs reales en SWE-bench Verified. Hace pocos meses era un número que parecía ciencia ficción.
Claude Sonnet — el modelo más extendido para las implementaciones enterprise — gestiona context windows de 200.000 tokens, razona sobre documentos complejos, produce código production-grade, soporta workflows empresariales de extremo a extremo. Todo ello con una gobernanza de datos adecuada para contextos enterprise europeos.
Mythos nos dice hacia dónde vamos. Pero lo que existe hoy ya es más que suficiente para transformar procesos reales, reducir costes reales, liberar tiempo real a las personas. No es necesario esperar al próximo salto para empezar a obtener resultados.
Cómo aprovechar al máximo Claude en su empresa
La ventaja de quien empieza hoy no es tener acceso a Mythos Preview. Es tener seis meses, un año de experiencia práctica en el uso de Claude cuando Mythos — o cualquier sucesor — se vuelva accesible.
Entender cómo estructurar los prompts, cómo diseñar workflows agénticos, cómo integrar Claude en los sistemas existentes, cómo formar a los equipos para el uso cotidiano: estas competencias se construyen con el tiempo y con la práctica. No se improvisan cuando llega el siguiente modelo.
Maverick AI trabaja con empresas que quieren construir estas competencias de forma estructurada. Desde la identificación de los casos de uso de alto impacto hasta la puesta en producción, desde la formación de equipos hasta la medición del ROI. Si quiere entender por dónde empezar, hablemos.