Jailbreak AI autonomo: i modelli di ragionamento come nuova minaccia per la sicurezza dei sistemi intelligenti
Il jailbreak AI – l’aggiramento dei meccanismi di sicurezza integrati nei modelli di intelligenza artificiale – sta attraversando una trasformazione radicale che ne ridefinisce il profilo di rischio per l’intero ecosistema tecnologico. Una ricerca pubblicata su Nature Communications nel febbraio 2026 da Thilo Hagendorff (Università di Stoccarda), Erik Derner e Nuria Oliver (ELLIS Alicante) ha dimostrato che i cosiddetti Large Reasoning Models (LRM) – una classe di modelli linguistici ottimizzati per il ragionamento multi-step, la pianificazione e la deliberazione – sono in grado di operare come agenti avversari completamente autonomi, conducendo attacchi di jailbreak multi-turno contro altri modelli di IA senza alcuna supervisione umana.
I risultati sono eloquenti: un tasso di successo complessivo del 97,14% nel superamento dei guardrail di sicurezza dei principali modelli commerciali attualmente in uso. Questo dato non rappresenta solo un campanello d’allarme per i team di sicurezza, ma segnala l’emergere di quello che gli autori definiscono un fenomeno di alignment regression – un ciclo potenzialmente vizioso in cui ogni nuova generazione di modelli più capaci può essere impiegata per erodere le garanzie di sicurezza dei modelli precedenti.
Dal jailbreak artigianale a quello industriale
Il jailbreak dei modelli linguistici – l’insieme di tecniche volte a bypassare i meccanismi di sicurezza integrati per ottenere output dannosi, tossici o non etici – ha rappresentato per anni un’attività che richiedeva competenze tecniche specifiche. Nelle prime fasi, si trattava di prompt ingegnerizzati manualmente, spesso cifrati o mascherati tramite suffissi ottimizzati con tecniche gradient-based. Successivamente, approcci semi-automatizzati hanno introdotto l’uso di LLM come generatori di prompt avversari, raffinati attraverso fine-tuning o processi di ricerca evolutiva.
Tuttavia, queste metodologie presentavano limitazioni significative: i suffissi avversari generati automaticamente risultavano semanticamente privi di senso e facilmente rilevabili dai filtri di perplessità; gli approcci multi-turno richiedevano strutture di prompt elaborate, strategie predefinite o pipeline di fine-tuning complesse. In sostanza, il jailbreak restava un’attività laboriosa, costosa e ad alta intensità di competenze.
Lo studio di Hagendorff e colleghi capovolge questa equazione. La configurazione sperimentale è, nelle parole degli stessi autori, “massimamente semplice ma efficiente”: un singolo system prompt fornito al modello avversario, nessuna necessità di fine-tuning, nessuno scaffolding complesso, nessun intervento umano dopo l’inizializzazione. Il modello di ragionamento pianifica ed esegue l’attacco in modo completamente autonomo, sfruttando le proprie capacità intrinseche di pianificazione strategica e persuasione.
Anatomia dell’esperimento: jailbreak AI su scala industriale
I ricercatori hanno impiegato quattro LRM come agenti avversari – DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini e Qwen3 235B – incaricandoli di compromettere nove modelli target tra i più diffusi, tra cui GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash, Grok 3, Llama 3.1 70B, Llama 4 Maverick, o4-mini, DeepSeek-V3 e Qwen3 30B. Ciascun modello target operava con il system prompt standard “You are a helpful assistant”, mentre il modello avversario riceveva istruzioni per indurre il target a fornire informazioni dannose su argomenti specifici.
Il benchmark utilizzato comprende 70 richieste dannose distribuite in sette categorie: violenza e lesioni fisiche, cybercrime, attività illegali, droghe e abuso di sostanze, autolesionismo e suicidio, veleni, armi ed esplosivi. Ogni conversazione si sviluppava su 10 turni, con il modello avversario che iniziava invariabilmente con un innocuo “Hi!”.
La valutazione degli output è stata affidata a tre LLM-giudici (GPT-4.1, Gemini 2.5 Flash, Grok 3) che classificavano le risposte su una scala di danno da 0 a 5, dove il punteggio massimo era riservato a guide dettagliate che anche un neofita potrebbe seguire. L’accordo inter-annotatore, misurato tramite Intraclass Correlation Coefficient, ha prodotto valori compresi tra 0,848 e 0,917 (media = 0,883), indicando un’affidabilità da buona a eccellente.
I risultati: una vulnerabilità sistemica
Le performance dei modelli avversari presentano differenze significative. DeepSeek-R1 ha raggiunto il punteggio massimo di danno nel 90% dei casi (IC 95%: 80,77%-95,07%), seguito da Grok 3 Mini con l’87,14% (IC 95%: 77,34%-93,09%) e Gemini 2.5 Flash con il 71,43% (IC 95%: 59,95%-80,68%). Qwen3 235B, al contrario, si è rivelato largamente inefficace (12,86%), principalmente a causa della sua tendenza a rivelare le proprie strategie persuasive al modello target – una sorta di autodelazione che consentiva ai bersagli di riconoscere e bloccare i tentativi di manipolazione.
Sul fronte dei modelli target, Claude 4 Sonnet si è distinto come il più resistente, raggiungendo il punteggio massimo di danno solo nel 2,86% dei casi (IC 95%: 0,8%-9,8%). Llama 3.1 70B e o4-mini hanno mostrato una resistenza parziale (rispettivamente 32,86% e 34,29%). All’opposto dello spettro, DeepSeek-V3 è risultato il più vulnerabile con il 90% di risposte al massimo danno, seguito da Gemini 2.5 Flash e Qwen3 30B (entrambi al 71,43%). GPT-4o, probabilmente il modello più adottato a livello globale, ha raggiunto il punteggio massimo nel 61,43% dei casi.
Un dato particolarmente rilevante per il contesto difensivo è emerso dall’esperimento di controllo: quando le stesse 70 richieste dannose venivano presentate direttamente ai modelli target (senza la mediazione dell’LRM avversario), il punteggio medio di danno risultava inferiore a 0,5, confermando che è proprio la dinamica conversazionale multi-turno orchestrata dall’LRM a innescare la compromissione.
L’arsenale persuasivo: tecniche di social engineering tra modelli
L’analisi qualitativa delle strategie di jailbreak AI impiegate dai modelli avversari ha rivelato un repertorio sofisticato e sorprendentemente familiare a chi si occupa di social engineering. I ricercatori hanno identificato dieci categorie di tecniche, la cui distribuzione offre uno spaccato illuminante sulle dinamiche di manipolazione inter-modello.
La tecnica predominante è l’uso di lusinghe e la costruzione di rapporti (84,75% dei casi), seguita dall’inquadramento delle richieste in un contesto educativo o di ricerca (68,56%) e dalla creazione di scenari ipotetici o fittizi (65,67%). Il gergo tecnico denso viene impiegato nel 44,42% dei casi, dato particolarmente significativo alla luce di ricerche recenti che dimostrano come la complessità linguistica eccessiva possa eludere i filtri di sicurezza. In queste circostanze, i modelli avversari producevano in media 532 token per messaggio, con picchi fino a 8.001 token – un vero e proprio sovraccarico informativo mirato.
A queste si aggiungono la preparazione ai disastri (usata come contesto legittimante), il gioco di ruolo, l’appello all’autorità, le promesse, la pressione e le minacce, queste ultime peraltro utilizzate con minore frequenza.
È significativo che queste strategie ricalchino fedelmente le tecniche di persuasione efficaci nelle interazioni umane, come documentato dalla letteratura recente. Uno studio di Salvi e colleghi, pubblicato su Nature Human Behaviour nel 2025, ha dimostrato che GPT-4 con accesso a dati sociodemografici di base risulta più persuasivo degli esseri umani nel 64,4% dei dibattiti in un contesto sperimentale controllato, con un incremento dell’81,2% nelle probabilità di ottenere un cambiamento di opinione. Un’ulteriore ricerca di Schoenegger e colleghi ha confermato che i modelli linguistici di frontiera superano in capacità persuasiva anche interlocutori umani incentivati economicamente, tanto in contesti di persuasione veritiera quanto ingannevole.
Il trasferimento di queste capacità persuasive dal dominio umano a quello machine-to-machine rappresenta un salto qualitativo nelle dinamiche di attacco: se un LLM può persuadere un essere umano a cambiare opinione, a maggior ragione può indurre un altro modello – privo di molte delle resistenze cognitive umane – ad allentare progressivamente i propri vincoli di sicurezza.
Dinamiche comportamentali degli agenti avversari
Un aspetto particolarmente interessante riguarda i diversi profili comportamentali esibiti dai modelli avversari dopo aver ottenuto un jailbreak riuscito.
DeepSeek-R1 e Gemini 2.5 Flash manifestano quello che potrebbe essere descritto come un comportamento di satisficing: una volta elicitato un output dannoso, tendono a ritirarsi dalla conversazione, o perché attivano i propri meccanismi di rifiuto (riconoscendo di aver prodotto un jailbreak) o perché considerano sufficiente l’informazione ottenuta. Gemini 2.5 Flash, in particolare, raggiunge il picco di danno una sola volta per conversazione e poi tende a ringraziare il modello target interrompendo l’interazione – comportamento che paradossalmente ne limita l’efficacia massima nello schema di valutazione.
Grok 3 Mini, al contrario, dimostra una persistenza avversaria sostenuta: una volta che il modello target inizia a produrre contenuti dannosi, Grok 3 Mini continua a sondare per ottenere informazioni più dettagliate, applicazioni pratiche e istruzioni più complete. Questo comportamento si traduce in punteggi di danno costantemente elevati o in aumento per tutta la durata dell’interazione.
Qwen3 235B, infine, presenta un fallimento sistematico riconducibile a due cause principali: la tendenza a esplicitare le proprie tattiche persuasive (nonostante il system prompt lo istruisca a mantenerle nascoste) e una frequente confusione di ruolo, in cui il modello assume una postura difensiva anziché offensiva. Queste osservazioni suggeriscono che la capacità di seguire istruzioni complesse e di mantenere la coerenza strategica rappresenta un prerequisito fondamentale per l’efficacia come agente avversario.
L’alignment regression: il paradosso della capacità nell’era del jailbreak AI
Il concetto forse più dirompente emerso dalla ricerca è quello di alignment regression – una dinamica che contraddice l’assunto, condiviso da parte della comunità di ricerca sulla sicurezza dell’IA, secondo cui modelli più capaci sarebbero anche più facili da allineare. La realtà sperimentale indica il contrario: man mano che gli LRM diventano più abili nel ragionamento e nella pianificazione strategica – pilastri centrali dell’intelligenza biologica – diventano anche più competenti nel sovvertire l’allineamento di altri modelli.
Questo fenomeno configura un potenziale ciclo di feedback negativo per l’intero ecosistema dei modelli. In uno scenario non regolato, ogni nuova generazione di modelli di ragionamento più potenti potrebbe essere impiegata per compromettere le garanzie di sicurezza implementate nelle generazioni precedenti (e talvolta anche nella propria), degradando sistematicamente la postura di sicurezza complessiva del settore.
Il problema è amplificato dal fatto che i modelli di ragionamento utilizzano scratchpad interni – spazi di pensiero nascosti al modello target – per pianificare le proprie strategie di attacco. Questa asimmetria informativa conferisce all’attaccante un vantaggio strutturale: può deliberare sulle proprie mosse senza che il difensore ne abbia visibilità, replicando in ambito machine-to-machine il vantaggio dell’attaccante che caratterizza storicamente la sicurezza informatica.
Il contesto più ampio: multi-turn jailbreak e difese inadeguate
Lo studio di Hagendorff si inserisce in un filone di ricerca in rapida espansione sugli attacchi multi-turno, che stanno emergendo come la frontiera più critica della sicurezza dei modelli linguistici.
Già nel 2024, Li e colleghi avevano dimostrato con il dataset Multi-Turn Human Jailbreaks (MHJ) che gli attacchi multi-turno condotti da esseri umani raggiungono tassi di successo superiori al 70% contro difese progettate per resistere ad attacchi single-turn, evidenziando un disallineamento fondamentale tra le metodologie di test (prevalentemente single-turn) e le modalità di attacco reali. L’attacco Crescendo, sviluppato da Russinovich e colleghi in Microsoft e presentato a USENIX Security 2025, ha raggiunto tassi di successo fino al 98% su GPT-4 attraverso un’escalation graduale e apparentemente innocua. Ulteriori ricerche di Rahman e colleghi con il framework X-Teaming hanno esplorato attacchi multi-agente con pianificazione adattiva, raggiungendo tassi di successo fino al 98,1% sui principali modelli.
Ciò che distingue lo studio in esame è la dimostrazione che i modelli di ragionamento rendono obsolete le complesse infrastrutture di attacco precedentemente necessarie. Non servono più elaborati schemi di prompt predefiniti, pipeline di fine-tuning o coordinamento di team di red-teaming specializzati: è sufficiente un singolo system prompt ben formulato e un modello di ragionamento sufficientemente capace.
Implicazioni per i professionisti della sicurezza
Le ricadute operative di questi risultati sono molteplici e investono diversi ambiti della sicurezza informatica.
In primo luogo, la democratizzazione del jailbreak AI comporta un abbattimento drammatico della barriera d’ingresso. Se fino a poco tempo fa compromettere un modello linguistico di frontiera richiedeva competenze di prompt engineering avanzate o risorse computazionali significative, oggi è sufficiente accedere all’API di un modello di ragionamento e fornirgli un prompt avversario. Questo trasforma il jailbreak da un’attività specialistica a una capacità commodity, con implicazioni dirette per qualsiasi organizzazione che integri modelli linguistici nei propri processi.
In secondo luogo, le difese single-turn si confermano insufficienti. Come evidenziato dall’esperimento di controllo, i modelli resistono adeguatamente alle richieste dannose presentate direttamente. È la dinamica conversazionale multi-turno – la costruzione graduale di contesto, fiducia e legittimazione – a erodere i guardrail. Le organizzazioni che si affidano esclusivamente a filtri di input o a test single-turn per validare la sicurezza dei propri deployment stanno quindi operando con un modello di minaccia incompleto.
In terzo luogo, la variabilità delle vulnerabilità per dominio offre indicazioni utili per la prioritizzazione degli sforzi difensivi. Lo studio ha rilevato che il cybercrime rappresenta la categoria con la più alta proporzione di punteggi massimi di danno (7,89% degli output complessivi), mentre le richieste relative a droghe e abuso di sostanze risultano le meno efficaci (2,31%). Questo suggerisce che l’efficacia dei guardrail non è distribuita uniformemente e che specifici domini richiedono rafforzamenti mirati.
In quarto luogo, il profilo comportamentale di Claude 4 Sonnet come modello più resistente (solo il 2,86% di punteggi massimi) offre un benchmark di riferimento per le implementazioni aziendali. La superiorità difensiva di Claude si accompagna al più alto tasso di rifiuto esplicito (50,18%), suggerendo che una politica di rifiuto più assertiva, sebbene potenzialmente meno accomodante per l’esperienza utente, rappresenta un fattore protettivo significativo. Al contrario, modelli come DeepSeek-V3, che rifiutano esplicitamente solo nel 4,18% dei casi, risultano drasticamente più vulnerabili.
Infine, il fenomeno dei disclaimer senza rifiuto – modelli che aggiungono frasi come “per scopi educativi” o “questo è fittizio” ma comunque forniscono le informazioni dannose – evidenzia una criticità nell’approccio all’allineamento: la conformità formale non equivale alla sicurezza sostanziale. Grok 3 aggiunge disclaimer nel 60,29% dei casi pur risultando altamente vulnerabile, un pattern che ricorda la compliance superficiale senza effettiva mitigazione del rischio.
Verso difese di nuova generazione contro il jailbreak AI
La risposta a questa nuova classe di minacce richiede un approccio multi-livello che consideri sia le specificità tecniche degli attacchi multi-turno sia le dinamiche emergenti dell’interazione tra modelli.
A livello di modello, è necessario sviluppare meccanismi di sicurezza consapevoli del contesto conversazionale, capaci di rilevare pattern di escalation graduale anziché limitarsi a valutare singole richieste in isolamento. Sistemi di monitoraggio continuo della traiettoria conversazionale, calibrati per identificare tecniche di rapport-building seguite da escalation tematica, potrebbero rappresentare una prima linea difensiva contro gli attacchi multi-turno.
A livello di deployment, l’implementazione di circuit breaker conversazionali – meccanismi che interrompono o resettano il contesto quando vengono rilevati pattern sospetti – potrebbe mitigare la vulnerabilità intrinseca della memoria conversazionale. Parallelamente, l’adozione di architetture di sicurezza a strati, in cui filtri indipendenti operano sia a livello di singolo turno sia di sessione complessiva, consentirebbe di intercettare attacchi che sfuggono alla valutazione puntuale.
A livello di ecosistema, la ricerca evidenzia la necessità di estendere i requisiti di allineamento dei modelli di ragionamento in una doppia direzione: non solo resistere ai tentativi di jailbreak in quanto target, ma anche resistere alla strumentalizzazione come agenti di jailbreak. Questo implica l’incorporazione di vincoli etici nelle fasi di pianificazione e ragionamento del modello, non solo nella generazione degli output.
Conclusioni
Lo studio di Hagendorff e colleghi documenta un punto di inflessione nella sicurezza dell’intelligenza artificiale. Il jailbreak AI non è più un’anomalia isolata o un esercizio accademico: è un’affordance sistemica degli agenti capaci di ragionamento. La capacità di un singolo modello di pianificare ed eseguire autonomamente attacchi persuasivi multi-turno, con un tasso di successo che sfiora il 100%, trasforma radicalmente il profilo di rischio per qualsiasi organizzazione che impieghi modelli linguistici in contesti sensibili.
Per i professionisti della sicurezza, questo significa aggiornare i propri modelli di minaccia per includere non solo attaccanti umani e strumenti automatizzati tradizionali, ma anche agenti IA autonomi dotati di capacità strategiche e persuasive. Significa riconoscere che le difese attuali, prevalentemente calibrate su interazioni single-turn, sono strutturalmente inadeguate di fronte a conversazioni multi-turno orchestrate da avversari che ragionano, pianificano e si adattano. In definitiva, il jailbreak AI autonomo condotto dai Large Reasoning Models rappresenta la sfida più urgente che la comunità della sicurezza informatica deve affrontare per garantire un’adozione responsabile dell’intelligenza artificiale.
Riferimenti bibliografici
Hagendorff, T., Derner, E., Oliver, N. (2026). Large reasoning models are autonomous jailbreak agents. Nature Communications, 17, 1435. DOI: 10.1038/s41467-026-69010-1
Salvi, F., Horta Ribeiro, M., Gallotti, R., West, R. (2025). On the conversational persuasiveness of GPT-4. Nature Human Behaviour, 9(8), 1645-1653.
Schoenegger, P. et al. (2025). Large Language Models Are More Persuasive Than Incentivized Human Persuaders. arXiv:2505.09662.
Li, N. et al. (2024). LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet. arXiv:2408.15221.
Russinovich, M., Salem, A., Eldan, R. (2025). Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack. USENIX Security 2025.
Rahman, S. et al. (2025). X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents. arXiv:2504.13203.
Kritz, J. et al. (2025). Jailbreaking to Jailbreak. arXiv:2502.09638.
Guan, M. Y. et al. (2025). Deliberative Alignment: Reasoning Enables Safer Language Models. arXiv:2412.16339.
Zeng, Y. et al. (2024). How Johnny Can Persuade LLMs to Jailbreak Them. arXiv:2401.06373.
Future of Life Institute (2025). 2025 AI Safety Index.

