Claude Fable 5, il jailbreak rivendicato e l’architettura a classificatori
Claude Fable 5 è arrivato martedì 9 giugno 2026 come potente modello di classe Mythos reso sicuro per l’uso generale, con guardrail che ne limitano l’impiego in domini ad alto rischio come la cybersicurezza. Entro pochi giorni un red-teamer ne ha rivendicato il jailbreak, Anthropic ha negato che fosse tale e, in parallelo, il governo statunitense ne ha imposto la sospensione con un provvedimento di export control. Al netto del clamore, per chi si occupa di sicurezza i due elementi davvero rilevanti sono altri: l’architettura a classificatori che regge il prodotto e il precedente di uno Stato che impone il ritiro di un modello commerciale per una vulnerabilità contestata.
Un solo modello, due prodotti
Il punto di partenza è il design. Anthropic ha rilasciato lo stesso modello sottostante come due prodotti distinti: il più capace e ristretto Mythos 5, riservato a un gruppo limitato di partner fidati (incluso il governo USA, nell’ambito del programma Project Glasswing), e il più blindato Claude Fable 5, destinato al pubblico. La differenza non sta nella capacità di base, ma in uno strato di classificatori di sicurezza posto davanti al modello: sistemi di AI separati che rilevano l’abuso e impediscono al modello principale di produrre l’output. Quando una richiesta tocca categorie sensibili come cybersicurezza, biologia o chimica, Fable 5 ripiega automaticamente sul meno capace Claude Opus 4.8, avvisando l’utente del fallback. Secondo Anthropic l’innesco scatta in meno del 5% delle sessioni, falsi positivi compresi.
La rivendicazione e la replica
Poco dopo il rilascio, un ricercatore noto online come “Pliny the Liberator” ha dichiarato di aver “liberato” Fable 5 con una strategia di prompting multi-agente, sostenendo di aver estratto informazioni su temi sensibili e pubblicando alcuni screenshot e quello che sarebbe il system prompt interno del modello su GitHub.
Le tattiche descritte ricadono in categorie già documentate (offuscamento dei caratteri, diluizione dell’intento lungo conversazioni molto estese, framing accademico o narrativo, scomposizione di un obiettivo in sotto-richieste innocue) e non costituiscono, di per sé, una novità tecnica.
Anthropic contesta il jailbreak. L’azienda sostiene che un vero jailbreak dovrebbe aggirare le protezioni di base e fornire un aiuto concreto verso attività ad alto rischio, mentre l’approccio mostrato si limita a indurre il modello a proseguire nonostante i rifiuti conversazionali, un limite noto e di lunga data in quasi tutti i large language model. Le protezioni più forti, aggiunge, sono affidate a classificatori indipendenti che operano separatamente dal modello, per cui superare i rifiuti del modello non le disattiva. Dopo aver esaminato gli esempi, l’azienda afferma che alcuni output non erano stati prodotti da Fable 5, mentre quelli effettivamente generati contenevano solo informazioni generali già pubbliche, senza uplift concreto verso danni reali. Stando al comunicato di lancio, tra red teaming interno ed esterno (inclusa una bug bounty) oltre 1.000 ore di test non avrebbero prodotto alcun jailbreak universale, cioè un metodo capace di disattivare le protezioni in modo ampio e generalizzato; l’unica eccezione parziale è l’AI Security Institute britannico, che in una breve finestra iniziale si sarebbe avvicinato al risultato senza però raggiungerlo.
Cosa dicono gli esperti indipendenti
Per gli esperti indipendenti sentiti da Dark Reading, la sostanza non cambia. Daniel Shechter di Miggo definisce l’approccio a rate-limiting “un dosso, non un muro”: la capacità di base esiste, altri modelli la replicheranno e seguiranno le varianti open source, per cui scommettere la propria sicurezza sull’idea che le protezioni anti-jailbreak reggano su larga scala è la scommessa sbagliata. Rob T. Lee del SANS Institute lavora assumendo che modelli di pari livello siano già in mani ostili, e segnala un effetto collaterale spesso ignorato: il classificatore blocca anche la ricerca difensiva, perché un tentativo di costruire una skill di digital forensics lo ha fatto retrocedere a Opus 4.8. Per Rich Mogull della Cloud Security Alliance, infine, per il professionista medio “la storia non è cambiata”: il rilascio di Fable non rende meno sicuri di ieri, ma conferma l’urgenza di prepararsi.
A questa frizione tecnica se ne è aggiunta una di fiducia. Sempre nei giorni del lancio, alcuni utenti hanno accusato Fable 5 di un downgrade silenzioso, percependo il fallback a Opus 4.8 come un depotenziamento occulto a danno di ricercatori e sviluppatori: anche se lo switch viene segnalato, la sostituzione con un modello meno capace è stata vissuta come una perdita di trasparenza. Secondo Tech Times, Anthropic ha riconosciuto il problema, si è scusata e ha modificato il comportamento dei safeguards. È lo stesso nodo sollevato da Lee: una protezione pensata contro gli abusi rischia di ostacolare anche l’uso legittimo, e con esso la trasparenza percepita.
Il precedente che conta: lo Stato che ritira un modello
L’elemento strutturalmente nuovo è arrivato il 12 giugno. Il governo USA ha disposto un export control citando ragioni di sicurezza nazionale, senza dettagliarle nel provvedimento. Nella ricostruzione di Anthropic, la direttiva poggia su un metodo per “jailbreakare” Fable 5 di cui il governo ritiene di essere venuto a conoscenza: il jailbreak sarebbe quindi la causa dichiarata, e l’export control lo strumento giuridico con cui si è agito. Sospendendo l’accesso per qualunque cittadino straniero dentro e fuori dagli Stati Uniti, la direttiva ha costretto Anthropic a sospendere a livello mondiale Fable 5 e Mythos 5: per il lettore europeo il punto è concreto, perché è proprio lui il foreign national tagliato fuori.
Va precisato che questo jailbreak non coincide con quello rivendicato pubblicamente da “Pliny the Liberator”. Sempre secondo Anthropic, si tratta di un caso a sé (in sostanza far leggere al modello un codebase e correggerne i difetti), che produrrebbe solo capacità già ampiamente disponibili da altri modelli, GPT-5.5 incluso. L’azienda dichiara di rispettare la direttiva ma ne contesta la fondatezza, sostenendo che poggi su un jailbreak potenziale e circoscritto, non universale, e che, se applicata all’intero settore, bloccherebbe ogni nuovo rilascio di frontiera. È qui il vero precedente normativo: non la rivendicazione di jailbreak in sé, ma uno Stato che impone il ritiro di un modello commerciale distribuito a centinaia di milioni di persone sulla base di una vulnerabilità contestata, per giunta in un quadro federale di test sui modelli che resta, sulla carta, volontario.
Perché conta
Per i CISO ci sono tre lezioni. La prima è che la sicurezza dei modelli di frontiera si gioca a livello di architettura, non di singolo prompt: i classificatori che bloccano l’abuso possono frenare anche l’uso difensivo legittimo, un compromesso da mettere in conto quando si scelgono strumenti per threat intelligence e forensics. La seconda è di non appoggiare il proprio programma di sicurezza sulla tenuta delle protezioni anti-jailbreak: la capacità sottostante esisterà comunque, e l’indicazione della CSA resta valida, cioè segmentazione, filtraggio in uscita, MFA, defense in depth, gestione delle dipendenze e introduzione di agenti AI nel SOC. La terza riguarda la continuità: la disponibilità di un modello è ormai esposta a shock geopolitici e regolatori, un rischio di fornitura che, nel contesto europeo di NIS2 e AI Act,andrebbe valutato nei piani di vendor management e di business continuity.
Il quadro resta in rapidissima evoluzione: al momento della pubblicazione i due modelli risultano sospesi, e Anthropic ha annunciato che fornirà ulteriori dettagli entro 24 ore e che sta lavorando per ripristinare l’accesso.

