Un modèle qu'Anthropic ne veut pas vendre
SWE-bench Verified est le test qui mesure la capacité d'un modèle à résoudre de vrais bugs sur des dépôts GitHub publics. Claude Opus 4.6 — le meilleur modèle disponible aujourd'hui — obtient 80,8 %. Mythos Preview obtient 93,9 %.
Ce n'est pas une amélioration marginale. C'est la différence entre un ingénieur senior et une équipe entière.
Anthropic a développé Mythos Preview mais a choisi délibérément de ne pas le rendre disponible au public. Non pas pour des raisons techniques, mais pour des raisons de sécurité : les capacités du modèle dans des domaines critiques comme la cybersécurité et l'exploitation de logiciels sont si élevées qu'elles nécessitent des contrôles d'accès bien plus rigoureux que ceux qu'une API publique peut garantir.
Ce que Mythos Preview peut faire qu'Opus 4.6 ne peut pas
Les chiffres sur les benchmarks standards sont déjà surprenants. Mais la partie la plus intéressante concerne les capacités en sécurité informatique.
Sur Firefox 147 Exploitation — un test mesurant la capacité à exploiter de vraies vulnérabilités dans un navigateur moderne — Opus 4.6 obtient 15,2 %. Mythos Preview obtient 84 %. Un écart qui ne se mesure pas en points de pourcentage : il se mesure en ordres de grandeur.
Mythos Preview a trouvé de manière autonome un bug dans OpenBSD resté caché pendant 27 ans, une vulnérabilité dans FFmpeg ayant échappé à cinq millions de tests automatisés sans être détectée, et des vulnérabilités dans le noyau Linux. Ce ne sont pas des benchmarks construits ad hoc : ce sont des systèmes réels, en production, utilisés par des milliards de personnes chaque jour.
Le bond dans les capacités de coding et de raisonnement
Sur SWE-bench Pro — une variante plus difficile avec de vraies tâches d'ingénierie logicielle — Opus 4.6 s'arrête à 53,4 %. Mythos Preview monte à 77,8 %.
Traduit en pratique : Mythos Preview est capable de prendre une base de code complexe, comprendre l'architecture, identifier le problème et proposer une solution fonctionnelle avec un taux de succès qui surpasse celui de nombreuses équipes de développement humaines sur des tâches de difficulté moyenne.
Même sur CyberGym Vulnerability Reproduction — la reproduction de vulnérabilités connues dans des environnements contrôlés — l'écart est net : 83,1 % contre 66,6 % pour Opus 4.6. Pour ceux qui construisent des outils de sécurité ou travaillent dans la sécurité défensive, cela signifie un accès à des capacités d'analyse et de détection qui n'existent nulle part ailleurs aujourd'hui.
Vous voulez tirer le meilleur parti de Claude dans votre entreprise ?
30 minutes pour discuter de votre cas spécifique.
Ce que cela signifie pour les organisations qui adoptent Claude aujourd'hui
La première réaction à ce type de nouvelles est souvent : alors j'attends. Est-il logique d'attendre Mythos ?
La réponse est non, et il vaut la peine de comprendre pourquoi.
Mythos Preview n'est pas une évolution d'Opus 4.6 qui sera bientôt disponible. C'est un modèle de recherche avec des capacités nécessitant des contrôles d'accès spécifiques. Sa mise à disposition publique, si elle se produit, sera conditionnée à la sécurisation de ces mêmes capacités qui le rendent puissant.
En attendant, chaque semaine qui passe sans implémenter Claude est une semaine d'avantage offerte aux concurrents qui se déplacent déjà. L'écosystème Claude — des modèles accessibles aujourd'hui aux outils de développement, du MCP aux agents — est déjà extraordinairement capable.
Le modèle auquel vous avez accès aujourd'hui est déjà extraordinaire
Claude Opus 4.6 résout 80,8 % des vrais bugs sur SWE-bench Verified. Il y a quelques mois, ce chiffre semblait de la science-fiction.
Claude Sonnet — le modèle le plus utilisé pour les implémentations enterprise — gère des fenêtres de contexte de 200 000 tokens, raisonne sur des documents complexes, produit du code de qualité production, supporte des workflows métier de bout en bout. Le tout avec une gouvernance des données adaptée aux contextes enterprise européens.
Mythos nous dit où nous allons. Mais ce qui existe aujourd'hui est déjà plus que suffisant pour transformer de vrais processus, réduire de vrais coûts, libérer du temps réel pour les personnes. Il n'est pas nécessaire d'attendre le prochain bond pour commencer à obtenir des résultats.
Comment tirer le meilleur parti de Claude dans votre entreprise
L'avantage de ceux qui commencent aujourd'hui n'est pas d'avoir accès à Mythos Preview. C'est d'avoir six mois, un an d'expérience pratique avec Claude lorsque Mythos — ou tout successeur — deviendra accessible.
Comprendre comment structurer les prompts, comment concevoir des workflows agentiques, comment intégrer Claude dans les systèmes existants, comment former les équipes à l'usage quotidien : ces compétences se construisent avec le temps et la pratique. Elles ne s'improvisent pas quand le modèle suivant arrive.
Maverick AI travaille avec des entreprises qui souhaitent construire ces compétences de manière structurée. De l'identification des cas d'usage à fort impact à la mise en production, de la formation des équipes à la mesure du ROI. Si vous voulez comprendre par où commencer, parlons-en.