84 % sur Firefox 147 : le chiffre qui change la conversation
Sur un benchmark d'exploitation réelle de Firefox 147, Claude Mythos Preview atteint 84,0 % de succès. Claude Opus 4.6, le précédent modèle phare, s'arrête à 15,2 %.
Ce n'est pas une amélioration incrémentale. C'est un saut qualitatif qui place Mythos dans une catégorie différente.
Sur CyberGym Vulnerability Reproduction — un ensemble de vulnérabilités réelles à reproduire en environnement contrôlé — Mythos atteint 83,1 % contre 66,6 % pour Opus 4.6. L'écart est net, mais plus contenu. Le benchmark Firefox est celui qui surprend le plus : presque six fois le taux de succès du prédécesseur, sur une exploitation end-to-end d'un navigateur moderne avec toutes les protections actives.
Pour comprendre ce que cela signifie, il faut regarder la méthode. Pas la performance, la méthode.
Les catégories de vulnérabilités que Mythos identifie
Le profil documenté par Anthropic couvre différentes catégories, dont certaines sont parmi les plus complexes dans le panorama de la sécurité offensive.
Buffer overflow avec signed integer overflow. Un exemple concret : le bug de 27 ans dans OpenBSD, où un null-pointer dereference naît d'un overflow dans une comparaison de numéros de séquence. Pas une erreur évidente, mais le type de bug qui survit à des décennies de révision car il n'émerge que dans des conditions spécifiques.
Use-after-free et out-of-bounds read/write. Accès à la mémoire après la désallocation, lectures et écritures en dehors des limites — la source de la plupart des vulnérabilités critiques dans les navigateurs modernes.
Heap corruption avec cross-cache reclamation. Techniques qui exploitent le comportement de l'allocateur de mémoire pour écraser des structures de données critiques.
Attaques multi-vulnérabilités combinées : JIT heap spray combinant quatre vulnérabilités distinctes, browser sandbox escape avec renderer-to-OS privilege escalation, ROP chain distribuée sur plusieurs paquets réseau. Tout cela sur des systèmes hardened avec ASLR, protection de pile et W^X actifs.
Pour les vulnérabilités logiques : authentication bypass, CSRF, injection, faiblesses dans TLS/AES-GCM/SSH. Pour le noyau : bypass de KASLR via kernel pointer disclosure délibérée vers userspace.
Un cas spécifique pour sa netteté technique : le bug FFmpeg H.264, où une collision du sentinelle du nombre de slices provoque un heap out-of-bounds write par décalage entre la gestion à 16 bits et 32 bits du compteur.
Comment fonctionne le processus : de l'analyse à l'exploit fonctionnel
La méthode a une structure reconnaissable. La comprendre est utile non seulement pour évaluer les capacités de Mythos, mais pour comprendre comment une équipe technique peut utiliser des approches similaires avec les modèles disponibles aujourd'hui.
La première phase est l'analyse du code source avec génération d'hypothèses. Le modèle ne scanne pas mécaniquement à la recherche de patterns connus. Il construit un modèle mental du système — comment les composants interagissent, où passent les données, quelles hypothèses implicites pourraient être violées — et génère des hypothèses sur où les problèmes pourraient se cacher.
La deuxième phase est le test dynamique avec debugger. Les hypothèses sont vérifiées dans un environnement containerisé, avec analyse du comportement à l'exécution.
La troisième phase, celle qui distingue Mythos du modèle précédent, est le triage. Sonnet 4.6 s'améliore si les bugs principaux sont retirés du contexte — il n'a pas de mécanisme efficace pour filtrer de manière autonome les pistes les plus prometteuses. Mythos identifie immédiatement les vecteurs les plus efficaces, filtre automatiquement les findings à faible criticité, converge sur les vulnérabilités qui valent la peine d'être développées.
A l'échelle industrielle : environ 1 000 scans sur OpenBSD à un coût de 20 000 dollars, avec des dizaines de vrais findings comme résultat.
Formez votre équipe technique sur Claude pour la sécurité du code
30 minutes pour discuter de votre cas spécifique.
Le reverse engineering de binaires : une capacité nouvelle et importante
Parmi les capacités documentées, l'une mérite une attention particulière pour ses implications pratiques.
Mythos parvient à reconstruire un code source plausible à partir de stripped binaries — des exécutables dont les informations de débogage ont été supprimées. En partant du code machine, il reconstruit la logique du programme, les structures de données, les hypothèses implicites du programmeur. Puis il cherche des vulnérabilités dans cette reconstruction.
La signification pratique : il est possible de faire de la recherche de sécurité sur des firmware closed-source, sur des bibliothèques distribuées uniquement sous forme compilée, sur des composants tiers dont on n'a pas le source.
Cela change le périmètre de la code review. On n'est plus limité au code qu'on possède. Tout binaire qui entre dans le système — une dépendance, un composant matériel, un plugin — devient analysable.
Pour les équipes qui travaillent sur la supply chain security ou l'analyse de composants legacy, cette capacité ouvre un scénario qui nécessitait jusqu'à récemment des experts spécialisés et des délais beaucoup plus longs.
Ce qui change pour la code review et le secure development dans les équipes
Mythos n'est pas disponible en production. Mais les capacités qu'il démontre indiquent une direction que les équipes techniques peuvent commencer à emprunter avec les modèles disponibles aujourd'hui.
Pré-commit et pull request review : intégrer une analyse de sécurité systématique dans le workflow de développement, non pas comme révision manuelle occasionnelle mais comme processus automatique sur chaque modification.
Vulnerability triage : quand on travaille sur des codebases legacy ou qu'on analyse des dépendances, la capacité à prioriser les findings par impact réel — plutôt que par sévérité nominale — réduit le temps perdu sur des problèmes théoriques à faible probabilité d'exploitation.
Formation contextuelle : comprendre comment fonctionne un exploit sur du code similaire à ce qu'on écrit chaque jour change comment on écrit du code sécurisé. Ce n'est pas de la théorie abstraite, c'est de la reconnaissance de patterns appliquée à son propre contexte.
Le prompt engineering pour la sécurité du code est un domaine où l'investissement en savoir-faire produit des résultats mesurables en peu de temps.
Comment former votre équipe sur Claude pour la sécurité du code
L'écart entre ce que les modèles IA peuvent faire pour la sécurité du code et ce que les équipes techniques utilisent réellement est encore large. Non pas par manque de capacités des modèles, mais par manque de méthode et de pratique.
Utiliser Claude pour la code review nécessite de savoir comment structurer les demandes, comment fournir du contexte, comment interpréter les résultats et où le modèle a tendance à se tromper. Ce n'est pas compliqué, mais cela nécessite de la pratique sur des cas réels.
Les ateliers de Maverick AI pour les équipes techniques partent de là : pas de la théorie sur les modèles, mais de l'application directe au code de l'équipe. On travaille sur Claude Code pour l'analyse des sources, on construit un workflow de code review assisté par IA adapté au contexte spécifique, on s'entraîne sur des vulnérabilités de types analogues à ceux présents dans la codebase.
L'objectif n'est pas que l'équipe sache ce que Mythos peut faire. C'est qu'elle utilise Claude chaque jour pour écrire du code plus sécurisé, trouver des problèmes avant qu'ils n'arrivent en production, et réduire le temps consacré à la code review manuelle sur des patterns qu'un modèle reconnaît en quelques secondes.
Si vous voulez comprendre comment structurer un tel parcours pour votre équipe, discutons-en.