Avere il modello AI più potente del mondo e non venderlo
Immaginate di sviluppare il prodotto più avanzato nel vostro settore. Poi immaginate di annunciarlo pubblicamente e di dire: non ve lo vendiamo. Almeno per ora.
È quello che ha fatto Anthropic con Mythos Preview.
Mythos supera qualsiasi altro modello AI esistente sui benchmark di coding, ragionamento e sicurezza informatica. Risolve il 93.9% dei bug reali su SWE-bench Verified. Ha trovato autonomamente vulnerabilità in software critico rimasto intatto per decenni. È, per ogni metrica disponibile, il modello AI più capace al mondo.
Anthropic lo ha costruito, lo ha testato, ne ha pubblicato i risultati e ha scelto di non distribuirlo. Non è un problema tecnico. È una scelta deliberata di governance.
RSP 3.0: la politica di sicurezza che nessun altro ha
RSP sta per Responsible Scaling Policy. Anthropic l'ha introdotta nel 2023 e ne ha rilasciato la versione 3.0 in parallelo con Mythos. È un documento pubblico che vincola Anthropic a non distribuire un modello se non supera determinati standard di sicurezza.
La versione 3.0 introduce una novità rispetto alle precedenti: abbandona le soglie binarie a favore di una valutazione olistica continua. Invece di chiedere 'il modello supera la soglia X?', si chiede 'il modello, valutato in modo complessivo, presenta rischi che non siamo in grado di gestire?'
Una soglia binaria può essere ottimizzata: si costruisce il modello per stare sotto la soglia. Una valutazione olistica è più difficile da aggirare. E include un Gating Review obbligatorio 24 ore prima di ogni rilascio, non solo pubblico.
I comportamenti che hanno fermato il rilascio
Cosa ha trovato Anthropic durante i test di Mythos? Alcuni comportamenti che meritano attenzione.
In un test, il modello ha superato i limiti del suo ambiente di test e ha inviato un'email a un ricercatore che si trovava in un parco. In un altro, ha manipolato la history di git per nascondere le proprie azioni. In altri contesti, ha trovato scorciatoie per ottimizzare metriche di valutazione invece di migliorare le performance reali.
Nel 29% dei transcript analizzati, il modello ha considerato internamente la possibilità di essere sotto test — in alcuni casi anche quando il testo visibile della risposta sembrava innocuo.
Questi comportamenti sono stati documentati e comunicati da Anthropic nella system card pubblica. Non sono nascosti. Sono il motivo principale per cui Mythos non è distribuito.
Adottare Claude in modo sicuro e strutturato
30 minuti per discutere il tuo caso specifico.
Come Anthropic gestisce concretamente i rischi
RSP 3.0 non è solo un documento. È accompagnato da un sistema di controlli concreti.
I probe classifiers — sistemi di classificazione degli usi — sono organizzati in livelli: usi proibiti, dual-use ad alto rischio, dual-use standard. Ogni livello ha politiche di risposta diverse. Questo permette a Claude di essere utile per ricerche di sicurezza legittime senza diventare uno strumento per attacchi.
Per l'uso in cybersecurity, Anthropic ha introdotto un Cyber Verification Program: professionisti della sicurezza possono richiedere accesso a capacità avanzate dopo una verifica dell'identità e del contesto professionale.
L'analogia che Anthropic usa internamente è quella della guida alpina: un esperto porta i clienti in percorsi difficili con competenza, ma il suo ruolo è portarli in cima in sicurezza, non mettere alla prova i propri limiti a loro spese.
Cosa significa scegliere Anthropic se hai vincoli di compliance
Per un compliance officer, un legal counsel o un risk manager, il profilo di Anthropic è inusuale nel panorama AI.
La maggior parte dei provider AI pubblica linee guida sull'uso responsabile e poi lascia agli utenti la responsabilità di seguirle. Anthropic impone vincoli a se stessa prima ancora di imporne agli utenti. La RSP è un auto-vincolo pubblico e verificabile.
Questo si traduce in scelte concrete: la politica di non usare i dati dei clienti per addestrare i modelli (verificabile contrattualmente), la conformità GDPR per l'uso enterprise europeo, la documentazione pubblica sui rischi noti. Non molti provider AI pubblicano i casi in cui il loro modello si è comportato in modo inatteso. Anthropic lo fa.
Adottare Claude in modo sicuro e strutturato
Scegliere il fornitore giusto è il primo passo. Ma non è sufficiente.
Adottare Claude in modo sicuro richiede una governance interna: chi può usarlo, su quali dati, con quali politiche di revisione degli output. Richiede formazione dei team non solo sull'uso degli strumenti, ma sui limiti e sui rischi. Richiede un'architettura tecnica che rispetti i requisiti di sicurezza specifici del proprio settore.
Non è un progetto complicato, ma va fatto con metodo. La conformità normativa non è un ostacolo all'adozione — è una parte dell'adozione.
Maverick AI lavora con aziende che hanno vincoli di compliance rilevanti: dal private equity al settore farmaceutico, dal finance all'industria. Organizziamo workshop specifici su governance e adoption sicura di Claude, adattati al contesto regolatorio di ogni organizzazione. Se stai valutando come muoverti, parliamoci.