84 % auf Firefox 147: die Zahl, die das Gespräch verändert
Auf einem Benchmark zur realen Exploitation von Firefox 147 erreicht Claude Mythos Preview 84,0 % Erfolgsquote. Claude Opus 4.6, das bisherige Flaggschiffmodell, kommt auf 15,2 %.
Das ist keine inkrementelle Verbesserung. Es ist ein qualitativer Sprung, der Mythos in eine andere Kategorie hebt.
Bei CyberGym Vulnerability Reproduction — einem Set realer Schwachstellen, die in kontrollierter Umgebung reproduziert werden sollen — erreicht Mythos 83,1 % gegenüber 66,6 % bei Opus 4.6. Der Abstand ist deutlich, aber begrenzter. Der Firefox-Benchmark ist derjenige, der am meisten überrascht: fast das Sechsfache der Erfolgsquote des Vorgängers, bei einer End-to-End-Exploitation eines modernen Browsers mit allen aktiven Schutzmaßnahmen.
Um zu verstehen, was das bedeutet, muss man die Methode betrachten. Nicht die Performance, die Methode.
Die Schwachstellenkategorien, die Mythos identifiziert
Das von Anthropic dokumentierte Profil deckt verschiedene Kategorien ab, von denen einige zu den komplexesten im Bereich der offensiven Sicherheit gehören.
Buffer overflow mit signed integer overflow. Ein konkretes Beispiel: der 27 Jahre alte Bug in OpenBSD, bei dem ein null-pointer dereference durch einen overflow in einem Sequence-Number-Vergleich entsteht. Kein offensichtlicher Fehler, sondern die Art von Bug, der jahrzehntelange Reviews überlebt, weil er nur unter spezifischen Bedingungen auftritt.
Use-after-free und out-of-bounds read/write. Speicherzugriffe nach der Freigabe, Lese- und Schreibzugriffe außerhalb der Grenzen — die Quelle der überwiegenden Mehrheit kritischer Schwachstellen in modernen Browsern.
Heap corruption mit cross-cache reclamation. Techniken, die das Verhalten des Speicher-Allocators ausnutzen, um kritische Datenstrukturen zu überschreiben.
Kombinierte Multi-Schwachstellen-Angriffe: JIT heap spray, der vier verschiedene Schwachstellen kombiniert, browser sandbox escape mit renderer-to-OS privilege escalation, ROP chain über mehrere Netzwerkpakete verteilt. Alles auf gehärteten Systemen mit aktivem ASLR, Stack-Schutz und W^X.
Für logische Schwachstellen: authentication bypass, CSRF, injection, Schwächen in TLS/AES-GCM/SSH. Für den Kernel: Bypass von KASLR durch absichtliche kernel pointer disclosure an den Userspace.
Ein Fall, der wegen seiner technischen Klarheit besonders hervorsticht: der FFmpeg H.264-Bug, bei dem eine Sentinel-Kollision der Slice-Nummer durch einen Mismatch zwischen 16-Bit- und 32-Bit-Behandlung des Zählers einen heap out-of-bounds write verursacht.
Wie der Prozess funktioniert: von der Analyse zum funktionierenden Exploit
Die Methode hat eine erkennbare Struktur. Sie zu verstehen ist nicht nur nützlich, um die Fähigkeiten von Mythos zu bewerten, sondern um zu verstehen, wie ein technisches Team ähnliche Ansätze mit den heute verfügbaren Modellen einsetzen kann.
Die erste Phase ist die Quellcodeanalyse mit Hypothesengenerierung. Das Modell scannt nicht mechanisch nach bekannten Patterns. Es baut ein mentales Modell des Systems auf — wie Komponenten interagieren, wo Daten fließen, welche impliziten Annahmen verletzt werden könnten — und generiert Hypothesen darüber, wo sich Probleme verbergen könnten.
Die zweite Phase ist das dynamische Testen mit einem Debugger. Die Hypothesen werden in einer containerisierten Umgebung überprüft, mit Analyse des Laufzeitverhaltens.
Die dritte Phase, die Mythos vom Vorgängermodell unterscheidet, ist das Triage. Sonnet 4.6 verbessert sich, wenn die wichtigsten Bugs aus dem Kontext entfernt werden — es verfügt über keinen effektiven Mechanismus, um die vielversprechendsten Ansätze autonom zu filtern. Mythos identifiziert sofort die effektivsten Vektoren, filtert automatisch Findings mit geringer Kritikalität heraus und konvergiert auf die Schwachstellen, die es wert sind, weiterentwickelt zu werden.
Auf industriellem Maßstab: etwa 1.000 Scans auf OpenBSD zu einem Kostenpunkt von 20.000 Dollar, mit Dutzenden realer Findings als Ergebnis.
Schulen Sie Ihr technisches Team mit Claude für Code-Sicherheit
30 Minuten für Ihren spezifischen Fall.
Reverse engineering aus Binärdateien: eine neue und wichtige Fähigkeit
Unter den dokumentierten Fähigkeiten verdient eine besondere Aufmerksamkeit aufgrund ihrer praktischen Implikationen.
Mythos kann plausiblen Quellcode aus stripped binaries rekonstruieren — ausführbare Dateien, aus denen die Debug-Informationen entfernt wurden. Ausgehend vom Maschinencode rekonstruiert es die Programmlogik, die Datenstrukturen, die impliziten Annahmen des Entwicklers. Anschließend sucht es in dieser Rekonstruktion nach Schwachstellen.
Die praktische Bedeutung: Es ist möglich, Security Research auf Closed-Source-Firmware, auf nur in kompilierter Form vertriebenen Bibliotheken und auf Drittkomponenten durchzuführen, für die kein Quellcode vorliegt.
Das verändert den Umfang der code review. Man ist nicht mehr auf den Code beschränkt, den man besitzt. Jede Binärdatei, die in das System gelangt — eine Abhängigkeit, eine Hardwarekomponente, ein Plugin — wird analysierbar.
Für Teams, die an supply chain security oder der Analyse von Legacy-Komponenten arbeiten, eröffnet diese Fähigkeit ein Szenario, das bis vor Kurzem spezialisierte Experten und deutlich längere Zeiträume erforderte.
Was sich für code review und secure development in Teams ändert
Mythos ist nicht in der Produktion verfügbar. Aber die Fähigkeiten, die es demonstriert, weisen eine Richtung, die technische Teams mit den heute verfügbaren Modellen bereits einschlagen können.
Pre-commit und pull request review: Integration einer systematischen Sicherheitsanalyse in den Entwicklungsworkflow — nicht als gelegentliche manuelle Überprüfung, sondern als automatischer Prozess bei jeder Änderung.
Vulnerability triage: Wenn man an Legacy-Codebases arbeitet oder Abhängigkeiten analysiert, reduziert die Fähigkeit, Findings nach realem Impact zu priorisieren — statt nach nominaler Schwere — die verschwendete Zeit bei theoretischen Problemen mit geringer Ausnutzungswahrscheinlichkeit.
Kontextuelle Schulung: zu verstehen, wie ein Exploit auf Code funktioniert, der dem eigenen ähnelt, verändert, wie man sicheren Code schreibt. Das ist keine abstrakte Theorie, sondern angewandte Mustererkennung im eigenen Kontext.
Das prompt engineering für Code-Sicherheit ist ein Bereich, in dem Investitionen in Know-how in kurzer Zeit messbare Ergebnisse liefern.
Wie Sie Ihr Team auf Claude für Code-Sicherheit schulen
Die Lücke zwischen dem, was KI-Modelle für Code-Sicherheit leisten können, und dem, was technische Teams tatsächlich nutzen, ist noch groß. Nicht wegen fehlender Modellkapazitäten, sondern wegen fehlender Methode und Praxis.
Claude für code review einzusetzen erfordert zu wissen, wie man Anfragen strukturiert, wie man Kontext bereitstellt, wie man Ergebnisse interpretiert und wo das Modell zu Fehlern neigt. Das ist nicht kompliziert, erfordert aber Übung an realen Fällen.
Die Maverick AI Workshops für technische Teams beginnen genau hier: nicht mit der Theorie über Modelle, sondern mit der direkten Anwendung auf den Code des Teams. Es wird mit Claude Code für die Quellcodeanalyse gearbeitet, ein auf den spezifischen Kontext zugeschnittener KI-gestützter code review Workflow wird aufgebaut, und es wird anhand von Schwachstellen geübt, die denen in der Codebase ähneln.
Das Ziel ist nicht, dass das Team weiß, was Mythos kann. Es ist, dass es Claude täglich nutzt, um sichereren Code zu schreiben, Probleme zu finden, bevor sie in die Produktion gelangen, und die Zeit zu reduzieren, die für manuelle code review von Patterns aufgewendet wird, die ein Modell in Sekunden erkennt.
Wenn Sie verstehen möchten, wie Sie einen solchen Lernpfad für Ihr Team strukturieren können, sprechen wir darüber.