Ein Modell, das Anthropic nicht verkaufen möchte
SWE-bench Verified ist der Test, der die Fähigkeit eines Modells misst, echte Bugs in öffentlichen GitHub-Repositories zu lösen. Claude Opus 4.6 — das heute beste verfügbare Modell — erreicht 80,8 %. Mythos Preview erreicht 93,9 %.
Das ist kein marginaler Unterschied. Es ist der Unterschied zwischen einem Senior-Ingenieur und einem ganzen Team.
Anthropic hat Mythos Preview entwickelt, aber bewusst entschieden, es nicht öffentlich verfügbar zu machen. Nicht aus technischen Gründen, sondern aus Sicherheitsgründen: Die Fähigkeiten des Modells in kritischen Bereichen wie Cybersicherheit und Software-Exploitation sind so hoch, dass sie eine wesentlich strengere Zugangskontrolle erfordern, als eine öffentliche API gewährleisten kann.
Was Mythos Preview kann, was Opus 4.6 nicht schafft
Die Zahlen bei Standard-Benchmarks sind bereits überraschend. Aber der interessanteste Teil betrifft die Fähigkeiten im Bereich IT-Sicherheit.
Bei Firefox 147 Exploitation — einem Test, der die Fähigkeit misst, echte Schwachstellen in einem modernen Browser auszunutzen — erreicht Opus 4.6 15,2 %. Mythos Preview erreicht 84 %. Ein Unterschied, der nicht in Prozentpunkten gemessen wird: er wird in Größenordnungen gemessen.
Mythos Preview hat eigenständig einen Bug in OpenBSD gefunden, der 27 Jahre lang verborgen war, eine Schwachstelle in FFmpeg, die fünf Millionen automatischen Tests entgangen war, sowie Schwachstellen im Linux-Kernel. Das sind keine eigens konstruierten Benchmarks: Es handelt sich um echte Systeme, die produktiv betrieben werden und täglich von Milliarden Menschen genutzt werden.
Der Sprung in den Coding- und Reasoning-Fähigkeiten
Bei SWE-bench Pro — einer schwierigeren Variante mit echten Software-Engineering-Aufgaben — bleibt Opus 4.6 bei 53,4 %. Mythos Preview steigt auf 77,8 %.
In der Praxis bedeutet das: Mythos Preview ist in der Lage, eine komplexe Codebase zu analysieren, die Architektur zu verstehen, das Problem zu identifizieren und eine funktionierende Lösung vorzuschlagen — mit einer Erfolgsquote, die bei Aufgaben mittlerer Schwierigkeit die vieler menschlicher Entwicklungsteams übertrifft.
Auch bei CyberGym Vulnerability Reproduction — der Reproduktion bekannter Schwachstellen in kontrollierten Umgebungen — ist der Unterschied deutlich: 83,1 % gegenüber 66,6 % bei Opus 4.6. Für diejenigen, die Sicherheitstools entwickeln oder im defensiven Bereich arbeiten, bedeutet dies Zugang zu Analyse- und Erkennungsfähigkeiten, die heute nirgendwo sonst existieren.
Möchten Sie Claude in Ihrem Unternehmen optimal nutzen?
30 Minuten für Ihren spezifischen Fall.
Was das für Organisationen bedeutet, die Claude heute einführen
Die erste Reaktion auf solche Neuigkeiten ist oft: Dann warte ich. Macht es Sinn, auf Mythos zu warten?
Die Antwort ist nein, und es lohnt sich zu verstehen warum.
Mythos Preview ist keine Weiterentwicklung von Opus 4.6, die bald verfügbar sein wird. Es ist ein Forschungsmodell mit Fähigkeiten, die eine spezifische Zugangskontrolle erfordern. Die öffentliche Veröffentlichung, falls sie jemals stattfindet, ist davon abhängig, dass genau die Fähigkeiten, die es leistungsfähig machen, abgesichert werden.
In der Zwischenzeit ist jede Woche, die vergeht, ohne Claude im Unternehmen einzusetzen, eine Woche Vorsprung, die den Wettbewerbern geschenkt wird, die sich bereits in Bewegung setzen. Das Claude-Ökosystem — von den heute verfügbaren Modellen bis hin zu den Entwicklungswerkzeugen, von MCP bis zu Agenten — ist bereits außerordentlich leistungsfähig.
Das Modell, auf das Sie heute Zugriff haben, ist bereits außergewöhnlich
Claude Opus 4.6 löst 80,8 % der echten Bugs auf SWE-bench Verified. Noch vor wenigen Monaten klang diese Zahl wie Science-Fiction.
Claude Sonnet — das am weitesten verbreitete Modell für Enterprise-Implementierungen — verwaltet Context Windows von 200.000 Tokens, denkt über komplexe Dokumente nach, produziert production-grade Code, unterstützt unternehmensweite Workflows von Ende zu Ende. Und das alles mit einer Daten-Governance, die für europäische Enterprise-Kontexte geeignet ist.
Mythos zeigt uns, wohin wir gehen. Aber was heute existiert, ist bereits mehr als ausreichend, um echte Prozesse zu transformieren, echte Kosten zu senken und den Menschen echte Zeit zu sparen. Es ist nicht nötig, auf den nächsten Sprung zu warten, um mit dem Erzielen von Ergebnissen zu beginnen.
Wie Sie Claude in Ihrem Unternehmen optimal einsetzen
Der Vorteil derer, die heute beginnen, liegt nicht im Zugang zu Mythos Preview. Er liegt darin, sechs Monate, ein Jahr praktische Erfahrung im Umgang mit Claude zu haben, wenn Mythos — oder irgendein Nachfolger — zugänglich wird.
Verstehen, wie man Prompts strukturiert, wie man agentische Workflows entwirft, wie man Claude in bestehende Systeme integriert, wie man Teams für die tägliche Nutzung schult: Diese Kompetenzen werden mit der Zeit und durch Übung aufgebaut. Sie können nicht improvisiert werden, wenn das nächste Modell kommt.
Maverick AI arbeitet mit Unternehmen zusammen, die diese Kompetenzen strukturiert aufbauen möchten. Von der Identifizierung hochwirksamer Use Cases bis zur Produktionseinführung, von der Team-Schulung bis zur Messung des ROI. Wenn Sie verstehen möchten, wo Sie anfangen sollen, sprechen wir darüber.