Un modello che Anthropic non vuole vendere
SWE-bench Verified è il test che misura la capacità di un modello di risolvere bug reali su repository GitHub pubblici. Claude Opus 4.6 — il miglior modello disponibile oggi — ottiene 80.8%. Mythos Preview ottiene 93.9%.
Non è un salto marginale. È la differenza tra un ingegnere senior e un team intero.
Anthropic ha sviluppato Mythos Preview ma ha scelto consapevolmente di non renderlo disponibile al pubblico. Non per limiti tecnici, ma per ragioni di sicurezza: le capacità del modello in ambiti critici come cybersecurity e software exploitation sono così elevate da richiedere un controllo degli accessi molto più rigoroso di quello che una API pubblica può garantire.
Cosa può fare Mythos Preview che Opus 4.6 non riesce
I numeri sui benchmark standard sono già sorprendenti. Ma la parte più interessante riguarda le capacità in ambito sicurezza informatica.
Su Firefox 147 Exploitation — un test che misura la capacità di sfruttare vulnerabilità reali in un browser moderno — Opus 4.6 ottiene 15.2%. Mythos Preview ottiene 84%. Un divario che non si misura in punti percentuali: si misura in ordini di grandezza.
Mythos Preview ha trovato autonomamente un bug in OpenBSD rimasto nascosto per 27 anni, una vulnerabilità in FFmpeg sfuggita a cinque milioni di test automatici, e vulnerabilità nel kernel Linux. Questi non sono benchmark costruiti ad hoc: sono sistemi reali, in produzione, che miliardi di persone usano ogni giorno.
Il salto nelle capacità di coding e ragionamento
Su SWE-bench Pro — una variante più difficile con task di ingegneria software reali — Opus 4.6 si ferma a 53.4%. Mythos Preview sale a 77.8%.
Tradotto in pratica: Mythos Preview è in grado di prendere una codebase complessa, capire l'architettura, identificare il problema e proporre una soluzione funzionante con una percentuale di successo che supera quella di molti team di sviluppo umani su task di media difficoltà.
Anche su CyberGym Vulnerability Reproduction — la riproduzione di vulnerabilità note in ambienti controllati — il divario è netto: 83.1% contro 66.6% di Opus 4.6. Per chi costruisce strumenti di sicurezza o lavora in ambito difensivo, questo significa accesso a capacità di analisi e rilevamento che oggi non esistono da nessuna altra parte.
Vuoi sfruttare al meglio Claude nella tua azienda?
30 minuti per discutere il tuo caso specifico.
Cosa significa per le organizzazioni che adottano Claude oggi
La prima reazione a notizie come questa è spesso: allora aspetto. Ha senso aspettare Mythos?
La risposta è no, e vale la pena capire perché.
Mythos Preview non è una evoluzione di Opus 4.6 che arriverà disponibile a breve. È un modello di ricerca con capacità che richiedono controllo degli accessi specifico. Il suo rilascio pubblico, se mai avverrà, sarà condizionato alla messa in sicurezza di quelle stesse capacità che lo rendono potente.
Nel frattempo, ogni settimana che passa senza implementare Claude in azienda è una settimana di vantaggio regalata ai concorrenti che si stanno già muovendo. L'ecosistema Claude — dai modelli accessibili oggi ai tool di sviluppo, dall'MCP agli agenti — è già straordinariamente capace.
Il modello a cui hai accesso oggi è già straordinario
Claude Opus 4.6 risolve l'80.8% dei bug reali su SWE-bench Verified. Pochi mesi fa era un numero che sembrava fantascienza.
Claude Sonnet — il modello più diffuso per le implementazioni enterprise — gestisce context window da 200.000 token, ragiona su documenti complessi, produce codice production-grade, supporta workflow aziendali end-to-end. Il tutto con una governance dei dati adeguata per contesti enterprise europei.
Mythos ci dice dove stiamo andando. Ma quello che esiste oggi è già più che sufficiente per trasformare processi reali, ridurre costi reali, liberare tempo reale alle persone. Non serve aspettare il prossimo salto per cominciare a ottenere risultati.
Come sfruttare al meglio Claude nella tua azienda
Il vantaggio di chi inizia oggi non è avere accesso a Mythos Preview. È avere sei mesi, un anno di esperienza pratica nell'uso di Claude quando Mythos — o qualsiasi suo successore — diventerà accessibile.
Capire come strutturare i prompt, come progettare workflow agentici, come integrare Claude nei sistemi esistenti, come formare i team all'uso quotidiano: queste competenze si costruiscono con il tempo e con la pratica. Non si improvvisano quando arriva il modello successivo.
Maverick AI lavora con aziende che vogliono costruire queste competenze in modo strutturato. Dall'identificazione dei casi d'uso ad alto impatto alla messa in produzione, dalla formazione dei team alla misurazione del ROI. Se vuoi capire da dove partire, parliamoci.