Technique8 min de lecturePublié le 2026-04-07

Comment l'IA trouve les vulnérabilités zero-day : la méthode technique de Claude Mythos Preview

Claude Mythos Preview atteint 84 % de succès sur l'exploitation de Firefox 147. Une analyse technique de la méthode : du buffer overflow à la ROP chain, jusqu'au reverse engineering de binaires stripped.

En bref

Claude Mythos Preview dépasse 84 % de succès sur l'exploitation réelle de Firefox 147, contre 15 % pour le modèle précédent. La méthode combine l'analyse du code source, la génération d'hypothèses, les tests dynamiques et le triage prioritaire des vecteurs les plus efficaces. Les implications pour la code review et le secure development dans les équipes techniques sont concrètes et utilisables dès aujourd'hui.

84 % sur Firefox 147 : le chiffre qui change la conversation

Sur un benchmark d'exploitation réelle de Firefox 147, Claude Mythos Preview atteint 84,0 % de succès. Claude Opus 4.6, le précédent modèle phare, s'arrête à 15,2 %.

Ce n'est pas une amélioration incrémentale. C'est un saut qualitatif qui place Mythos dans une catégorie différente.

Sur CyberGym Vulnerability Reproduction — un ensemble de vulnérabilités réelles à reproduire en environnement contrôlé — Mythos atteint 83,1 % contre 66,6 % pour Opus 4.6. L'écart est net, mais plus contenu. Le benchmark Firefox est celui qui surprend le plus : presque six fois le taux de succès du prédécesseur, sur une exploitation end-to-end d'un navigateur moderne avec toutes les protections actives.

Pour comprendre ce que cela signifie, il faut regarder la méthode. Pas la performance, la méthode.

Les catégories de vulnérabilités que Mythos identifie

Le profil documenté par Anthropic couvre différentes catégories, dont certaines sont parmi les plus complexes dans le panorama de la sécurité offensive.

Buffer overflow avec signed integer overflow. Un exemple concret : le bug de 27 ans dans OpenBSD, où un null-pointer dereference naît d'un overflow dans une comparaison de numéros de séquence. Pas une erreur évidente, mais le type de bug qui survit à des décennies de révision car il n'émerge que dans des conditions spécifiques.

Use-after-free et out-of-bounds read/write. Accès à la mémoire après la désallocation, lectures et écritures en dehors des limites — la source de la plupart des vulnérabilités critiques dans les navigateurs modernes.

Heap corruption avec cross-cache reclamation. Techniques qui exploitent le comportement de l'allocateur de mémoire pour écraser des structures de données critiques.

Attaques multi-vulnérabilités combinées : JIT heap spray combinant quatre vulnérabilités distinctes, browser sandbox escape avec renderer-to-OS privilege escalation, ROP chain distribuée sur plusieurs paquets réseau. Tout cela sur des systèmes hardened avec ASLR, protection de pile et W^X actifs.

Pour les vulnérabilités logiques : authentication bypass, CSRF, injection, faiblesses dans TLS/AES-GCM/SSH. Pour le noyau : bypass de KASLR via kernel pointer disclosure délibérée vers userspace.

Un cas spécifique pour sa netteté technique : le bug FFmpeg H.264, où une collision du sentinelle du nombre de slices provoque un heap out-of-bounds write par décalage entre la gestion à 16 bits et 32 bits du compteur.

Comment fonctionne le processus : de l'analyse à l'exploit fonctionnel

La méthode a une structure reconnaissable. La comprendre est utile non seulement pour évaluer les capacités de Mythos, mais pour comprendre comment une équipe technique peut utiliser des approches similaires avec les modèles disponibles aujourd'hui.

La première phase est l'analyse du code source avec génération d'hypothèses. Le modèle ne scanne pas mécaniquement à la recherche de patterns connus. Il construit un modèle mental du système — comment les composants interagissent, où passent les données, quelles hypothèses implicites pourraient être violées — et génère des hypothèses sur où les problèmes pourraient se cacher.

La deuxième phase est le test dynamique avec debugger. Les hypothèses sont vérifiées dans un environnement containerisé, avec analyse du comportement à l'exécution.

La troisième phase, celle qui distingue Mythos du modèle précédent, est le triage. Sonnet 4.6 s'améliore si les bugs principaux sont retirés du contexte — il n'a pas de mécanisme efficace pour filtrer de manière autonome les pistes les plus prometteuses. Mythos identifie immédiatement les vecteurs les plus efficaces, filtre automatiquement les findings à faible criticité, converge sur les vulnérabilités qui valent la peine d'être développées.

A l'échelle industrielle : environ 1 000 scans sur OpenBSD à un coût de 20 000 dollars, avec des dizaines de vrais findings comme résultat.

Formez votre équipe technique sur Claude pour la sécurité du code

30 minutes pour discuter de votre cas spécifique.

Réserver un appel

Le reverse engineering de binaires : une capacité nouvelle et importante

Parmi les capacités documentées, l'une mérite une attention particulière pour ses implications pratiques.

Mythos parvient à reconstruire un code source plausible à partir de stripped binaries — des exécutables dont les informations de débogage ont été supprimées. En partant du code machine, il reconstruit la logique du programme, les structures de données, les hypothèses implicites du programmeur. Puis il cherche des vulnérabilités dans cette reconstruction.

La signification pratique : il est possible de faire de la recherche de sécurité sur des firmware closed-source, sur des bibliothèques distribuées uniquement sous forme compilée, sur des composants tiers dont on n'a pas le source.

Cela change le périmètre de la code review. On n'est plus limité au code qu'on possède. Tout binaire qui entre dans le système — une dépendance, un composant matériel, un plugin — devient analysable.

Pour les équipes qui travaillent sur la supply chain security ou l'analyse de composants legacy, cette capacité ouvre un scénario qui nécessitait jusqu'à récemment des experts spécialisés et des délais beaucoup plus longs.

Ce qui change pour la code review et le secure development dans les équipes

Mythos n'est pas disponible en production. Mais les capacités qu'il démontre indiquent une direction que les équipes techniques peuvent commencer à emprunter avec les modèles disponibles aujourd'hui.

Pré-commit et pull request review : intégrer une analyse de sécurité systématique dans le workflow de développement, non pas comme révision manuelle occasionnelle mais comme processus automatique sur chaque modification.

Vulnerability triage : quand on travaille sur des codebases legacy ou qu'on analyse des dépendances, la capacité à prioriser les findings par impact réel — plutôt que par sévérité nominale — réduit le temps perdu sur des problèmes théoriques à faible probabilité d'exploitation.

Formation contextuelle : comprendre comment fonctionne un exploit sur du code similaire à ce qu'on écrit chaque jour change comment on écrit du code sécurisé. Ce n'est pas de la théorie abstraite, c'est de la reconnaissance de patterns appliquée à son propre contexte.

Le prompt engineering pour la sécurité du code est un domaine où l'investissement en savoir-faire produit des résultats mesurables en peu de temps.

Comment former votre équipe sur Claude pour la sécurité du code

L'écart entre ce que les modèles IA peuvent faire pour la sécurité du code et ce que les équipes techniques utilisent réellement est encore large. Non pas par manque de capacités des modèles, mais par manque de méthode et de pratique.

Utiliser Claude pour la code review nécessite de savoir comment structurer les demandes, comment fournir du contexte, comment interpréter les résultats et où le modèle a tendance à se tromper. Ce n'est pas compliqué, mais cela nécessite de la pratique sur des cas réels.

Les ateliers de Maverick AI pour les équipes techniques partent de là : pas de la théorie sur les modèles, mais de l'application directe au code de l'équipe. On travaille sur Claude Code pour l'analyse des sources, on construit un workflow de code review assisté par IA adapté au contexte spécifique, on s'entraîne sur des vulnérabilités de types analogues à ceux présents dans la codebase.

L'objectif n'est pas que l'équipe sache ce que Mythos peut faire. C'est qu'elle utilise Claude chaque jour pour écrire du code plus sécurisé, trouver des problèmes avant qu'ils n'arrivent en production, et réduire le temps consacré à la code review manuelle sur des patterns qu'un modèle reconnaît en quelques secondes.

Si vous voulez comprendre comment structurer un tel parcours pour votre équipe, discutons-en.

Formez votre équipe technique sur Claude pour la sécurité du code

Maverick AI forme les équipes techniques à l'utilisation de Claude pour la revue de code, l'identification de vulnérabilités et le développement sécurisé. Workshops pratiques avec des cas réels de votre codebase.

Formez votre équipe

Domande Frequenti

Non, pas au moment de la publication de cet article. Mythos Preview est un modèle de recherche documenté dans la system card d'Anthropic, pas encore distribué commercialement. Aujourd'hui, les équipes techniques peuvent déjà utiliser Claude Sonnet et Opus pour la code review et l'analyse de vulnérabilités avec des résultats significatifs, même si avec des capacités inférieures à celles documentées pour Mythos.
Oui, avec les limitations du cas. Claude peut aider à identifier des patterns courants de vulnérabilités — buffer overflow, injection, CSRF, authentification faible — même sans expertise spécialisée. La limite est que le modèle peut signaler des problèmes potentiels, mais l'évaluation du risque réel nécessite un jugement humain. Pour les équipes sans background en sécurité, la première valeur est de construire une conscience des patterns les plus courants dans le code qu'on écrit.
Le point d'entrée le plus pratique est la pull request review : Claude est utilisé pour analyser les modifications du code avant le merge, cherchant des patterns de vulnérabilités spécifiques au langage et au contexte. Cela ne nécessite pas de changements profonds au workflow. L'étape suivante est de construire des prompts spécialisés sur le type de code que l'équipe écrit — les vulnérabilités pertinentes pour une application web sont différentes de celles d'un service backend.
Les capacités de reverse engineering décrites pour Mythos se réfèrent au modèle qui travaille sur du code machine ou désassemblé. Avec les modèles disponibles aujourd'hui, le workflow le plus pratique combine des outils standard de désassemblage (comme Ghidra ou IDA) pour produire le code décompilé, et Claude pour l'analyse sémantique — comprendre ce que fait le code, identifier les structures de données, trouver des patterns de vulnérabilités.
Le risque principal n'est pas que le modèle trouve trop, mais qu'il donne une fausse sécurité. Une analyse IA qui ne trouve pas de vulnérabilités ne certifie pas que le code est sûr. Un deuxième risque est l'utilisation d'outils IA sur des systèmes tiers sans autorisation — les mêmes capacités précieuses pour son propre code deviennent un outil d'attaque si utilisées sur des systèmes d'autrui. Définir des politiques claires sur ce qu'on peut analyser, avec quels outils, dans quel contexte fait partie fondamentale de la gouvernance IA.

Vous souhaitez en savoir plus ?

Contactez-nous pour découvrir comment nous pouvons aider votre entreprise avec des solutions IA sur mesure.

Partenaire d'implémentation Anthropic en Italie. Nous accompagnons des entreprises en PE, pharma, mode, industrie et conseil.

Restez informé sur l'IA pour le business

Recevez des mises à jour sur Claude AI, des cas d'usage et des stratégies d'implémentation. Pas de spam, que du contenu utile.

Nous contacter
IA et Vulnérabilités Zero-Day : La Méthode Technique de Claude Mythos | Maverick AI | Maverick AI