difesa dall'ai offensiva

Difesa dall’AI offensiva: detection proattiva, auto-disruption e nuovi framework di valutazione

La difesa dall’AI offensiva non è più una questione teorica da rimandare a future roadmap. È un’esigenza operativa che i sette articoli precedenti di questa serie hanno reso evidente con una progressione inesorabile: dal vibe hacking che ha trasformato Claude Code in un’arma autonoma, al no-code malware venduto a 400 dollari sul dark web, dalla frode occupazionale nordcoreana che ha infiltrato Fortune 500, all’APT cinese che ha integrato l’AI in 12 delle 14 tattiche MITRE ATT&CK, fino alla profilazione comportamentale delle vittime tramite Model Context Protocol e alla AI fraud supply chain che industrializza l’intera catena del valore criminale.

Questo articolo conclusivo ribalta la prospettiva. Non più l’anatomia dell’attacco, ma l’architettura della difesa. Le contromisure documentate nel Threat Intelligence Report di Anthropic di agosto 2025 e nella successiva analisi della campagna GTG-1002 di novembre 2025 offrono un vocabolario operativo nuovo – auto-disruption, classificatori dedicati, analisi privacy-preserving, condivisione di indicatori tecnici – che merita un’analisi strutturata. Non perché queste misure siano sufficienti, ma perché delineano i contorni di un paradigma difensivo che l’intera comunità di sicurezza è chiamata a costruire.

Il caso auto-disruption: ban pre-prompt della campagna Contagious Interview

Il primo caso di difesa documentato è anche il più radicale nella sua semplicità. Anthropic ha identificato account riconducibili alla campagna nordcoreana Contagious Interview – il cluster Famous Chollima che attira sviluppatori legittimi con false offerte di lavoro per distribuire malware – e li ha bannati prima che gli operativi potessero eseguire qualsiasi prompt.

Non si tratta di detection reattiva: è auto-disruption preventiva, un intervento che opera a monte dell’interazione con il modello. Secondo quanto dichiarato da Anthropic nel report di agosto 2025, gli account sono stati individuati e bannati prima che potessero emettere qualsiasi prompt. Il report non dettaglia il meccanismo esatto di detection preventiva, ma il contesto suggerisce una combinazione di segnali esterni – correlazione con indicatori noti delle operazioni DPRK, pattern di registrazione anomali, intelligence condivisa da partner di settore – che hanno consentito l’intervento a monte. Questa precisazione è rilevante: l’efficacia dell’auto-disruption dipende dalla qualità dell’intelligence esterna, non solo dalla capacità di analisi interna del provider.

L’importanza di questo intervento si misura in termini contraffattuali. SentinelOne ha identificato oltre 230 vittime della campagna Contagious Interview nel solo primo trimestre 2025. Nel luglio 2025, Socket Research ha scoperto 67 nuovi pacchetti npm malevoli contenenti il malware loader XORIndex, con oltre 9.000 download complessivi. L’auto-disruption ha potenzialmente impedito che Claude venisse utilizzato per potenziare una campagna già devastante.

Per i team di sicurezza, il principio è trasferibile: la difesa più efficace è quella che impedisce all’attaccante di iniziare. Ma richiede un investimento continuo in intelligence esterna, correlazione cross-piattaforma e automazione delle decisioni di enforcement – capacità che poche organizzazioni possiedono e che il settore deve sviluppare collettivamente.

Clio: l’analisi automatizzata privacy-preserving per la threat hunting

Se l’auto-disruption opera sui segnali esterni, Clio opera su quelli interni. Acronimo di Claude Insights and Observations, Clio è lo strumento di analisi automatizzata che ha consentito ad Anthropic di individuare minacce che i sistemi di enforcement tradizionali non avrebbero intercettato – tra cui il caso GTG-5004, il sviluppatore di ransomware no-code scoperto proprio attraverso questa piattaforma.

L’architettura di Clio, descritta nel paper pubblicato su arXiv nel dicembre 2024, risolve un dilemma che ogni organizzazione conosce: come analizzare pattern di utilizzo per identificare abusi senza compromettere la privacy degli utenti legittimi. Clio impiega un approccio bottom-up interamente automatizzato, articolato in quattro fasi: estrazione di facet dalle conversazioni, raggruppamento in cluster semantici, generazione di descrizioni anonimizzate, e costruzione di gerarchie navigabili. L’intero processo è alimentato da Claude stesso – non da analisti umani. Solo i cluster aggregati sono visibili al team Trust and Safety, con soglie minime di diversità che impediscono l’esposizione di pattern individuali.

Questo design rappresenta un cambio di paradigma rispetto alla safety tradizionale. Gli approcci top-down – red teaming, evaluations pre-deployment, classificatori addestrati su minacce note – funzionano quando si sa cosa cercare. Clio funziona quando non si sa cosa cercare. Anthropic lo ha impiegato per tre finalità complementari: il monitoraggio post-deployment delle capacità di computer use di Claude dopo il lancio dell’ottobre 2024, la sorveglianza dell’integrità elettorale durante le elezioni statunitensi del 2024, e l’identificazione di pattern di abuso invisibili a livello di singola conversazione ma rilevabili a livello aggregato – come nel caso del sviluppatore di ransomware GTG-5004.

Per la community di sicurezza, Clio suggerisce un modello replicabile: sistemi di analisi che utilizzano l’AI stessa per monitorare l’AI, operando a un livello di astrazione che preserva la privacy individuale mentre rivela pattern collettivi di abuso. È una forma di threat hunting interna che le organizzazioni che gestiscono piattaforme AI dovrebbero adottare come standard operativo.

Classificatori dedicati e compressione del time-to-deployment

La risposta di Anthropic ai casi documentati non si è limitata al ban degli account. In ogni caso significativo, il team ha sviluppato classificatori dedicati – strumenti automatici di screening progettati per rilevare pattern specifici di attività malevola e integrarli nella pipeline di enforcement standard.

Per il caso GTG-2002 (vibe hacking), Anthropic ha costruito un classificatore specifico per i pattern operativi dell’attacco e ha introdotto un nuovo metodo di detection complementare. Per il caso GTG-5004 (ransomware no-code), ha implementato metodi di rilevazione del caricamento, della modifica e della generazione di malware. Per la campagna GTG-1002 (spionaggio cinese), ha migliorato i classificatori cyber-focused esistenti e ha prototipato sistemi di early detection proattiva per attacchi cyber autonomi.

L’approccio segue una logica iterativa: ogni caso scoperto alimenta un classificatore che riduce la probabilità che lo stesso pattern possa essere replicato. È una forma di immunizzazione adattiva della piattaforma, dove ogni infezione produce anticorpi specifici. I limiti sono evidenti: i classificatori pattern-based funzionano contro varianti dello stesso tipo di attacco, ma sono strutturalmente vulnerabili a tecniche genuinamente nuove. Come ha osservato Noma Security, ciò che serve è un ecosistema di sicurezza runtime che monitori input e output dei modelli in tempo reale, applicando policy dinamicamente.

Un dato del report illustra la pressione temporale su queste difese. I campioni di malware generati dal sviluppatore russo-parlante (scoperto tramite Clio) sono apparsi su VirusTotal entro due ore dalla generazione del codice, con submission provenienti da Russia, Regno Unito e Ucraina. Due ore dalla generazione assistita dall’AI alla distribuzione nel mondo reale. Questo dato comprime il time-to-deployment in un intervallo incompatibile con i cicli di aggiornamento delle signature antivirus tradizionali. Per i SOC team, l’implicazione è diretta: l’analisi comportamentale – pattern di cifratura massiva, eliminazione delle shadow copy, comunicazioni C2 su Tor, enumerazione anomala di share di rete – diventa l’indicatore primario di compromissione.

Condivisione di intelligence e confronto cross-vendor

In ogni caso documentato, Anthropic ha condiviso indicatori tecnici con partner chiave per prevenire abusi analoghi nell’ecosistema. La condivisione è avvenuta su più direttrici: con le autorità competenti per la campagna GTG-1002 (coordinamento durante i dieci giorni di investigazione), con partner di settore per gli indicatori tecnici delle operazioni DPRK, con l’ecosistema allargato per i pattern di abuso della piattaforma.

Anthropic non è l’unico provider a documentare l’uso malevolo dei propri modelli. OpenAI, nei report di giugno e ottobre 2025, ha dichiarato di aver individuato e interrotto oltre 40 reti che violavano le policy di utilizzo, incluse operazioni di regimi autoritari, frode, attività cyber malevole e operazioni di influenza occulta. Un numero significativo di questi casi aveva origine in Cina, con attività che spaziavano dal social engineering allo spionaggio cyber alle operazioni DPRK.

OpenAI ha riscontrato un pattern coerente con le osservazioni di Anthropic: gli attori utilizzano l’AI per accelerare tecniche esistenti, non per sviluppare capacità offensive genuinamente nuove. Google, con l’AI Threat Tracker del GTIG di febbraio 2026, ha prodotto la mappatura più sistematica dell’uso avversario dell’AI, documentando tra l’altro la famiglia malware PROMPTFLUX che utilizza le API di Gemini in tempo reale. Il Microsoft Digital Defense Report 2025 ha evidenziato che gli attaccanti usano l’AI per scalare il phishing e automatizzare le intrusioni, con un incremento dell’87% degli attacchi distruttivi al cloud.

Questa convergenza cross-vendor conferma l’universalità della minaccia, ma evidenzia anche le limitazioni della disclosure attuale. Come ha osservato la critica di Better Stack, nessuno di questi report include Indicatori di Compromissione (IoC) specifici – hash, domini, infrastrutture – che consentirebbero ad altre organizzazioni di verificare proattivamente la propria esposizione. La tensione tra trasparenza operativa e protezione delle indagini in corso resta irrisolta.

Ripensare i framework di valutazione: il fattore AI enablement

I framework tradizionali di threat assessment sono stati progettati per classificare attori con competenze statiche e strumenti riconoscibili. L’AI offensiva invalida questo assunto fondamentale.

L’aggiornamento di MITRE ATLAS dell’ottobre 2025, con 14 nuove tecniche specifiche per agenti AI e sistemi generativi (context poisoning, manipolazione della memoria LLM, thread injection, credential harvesting tramite RAG), è un passo necessario. Ma ATLAS cataloga le minacce ai sistemi AI, non le minacce *abilitate dall’*AI nel ciclo di attacco tradizionale. Il gap concettuale è significativo.

Due iniziative recenti iniziano a colmarlo. Il Cyber AI Profile del NIST (NIST IR 8596, draft preliminare pubblicato il 16 dicembre 2025) organizza la gestione del rischio AI attorno a tre aree focali: protezione dei sistemi AI (Secure), difesa cyber abilitata dall’AI (Defend), e contrasto agli attacchi cyber abilitati dall’AI (Thwart). È il primo framework istituzionale che tratta esplicitamente l’AI sia come asset da proteggere sia come vettore di attacco, mappando le considerazioni su tutte le sei funzioni del CSF 2.0.

L’International AI Safety Report 2026, prodotto da oltre 100 esperti internazionali, ha confermato che le salvaguardie tecniche, pur migliorando, presentano ancora limitazioni significative: gli attacchi progettati per estrarre output dannosi sono diventati più difficili, ma gli utenti riescono ancora a ottenere contenuti problematici riformulando le richieste o suddividendole in passaggi più piccoli.

La proposta che emerge dall’analisi dell’intera serie è l’integrazione di un fattore di AI enablement nei framework di valutazione. In termini operativi, questo si traduce in tre variabili da incorporare nel risk scoring: la probabilità che un attore utilizzi AI per colmare gap di competenza (misurata attraverso la disponibilità di modelli accessibili e la documentazione di casi analoghi), la velocità di iterazione consentita dagli strumenti agentic (calibrata sui dati empirici – da due ore per il time-to-deployment a due mesi per la transizione da advisor a operatore autonomo), e la capacità di generare varianti uniche che eludono le detection pattern-based (quantificabile attraverso il rapporto tra campioni unici e signature disponibili).

Il Cyber AI Profile del NIST fornisce la struttura entro cui queste variabili possono essere integrate; ciò che manca è la parametrizzazione empirica, che solo la condivisione sistematica di dati tra provider, CSIRT e centri di ricerca può fornire.

Il limite strutturale: modelli self-hosted e distillazione

L’intero paradigma difensivo descritto – auto-disruption, Clio, classificatori dedicati, condivisione di intelligence – opera su un presupposto implicito: che gli attaccanti utilizzino modelli hosted da provider commerciali che possono monitorare, rilevare e intervenire. Questo presupposto è già in fase di erosione.

Il GTIG di Google, nel report di febbraio 2026, ha documentato casi di distillazione in cui le conoscenze di modelli di frontiera vengono trasferite a modelli locali meno controllati. Come ha osservato IronScales, quando la profilazione, lo sviluppo di malware o le operazioni di spionaggio vengono condotte con modelli self-hosted privi di guardrail, il meccanismo di detection basato sul provider viene meno.

La traiettoria è identificabile. Il Research Center 227, una nuova struttura di ricerca AI all’interno dell’agenzia di intelligence nordcoreana, segnala l’intenzione del regime di costruire capacità AI proprietarie. L’ecosistema open-weight offre già modelli potenti che, una volta scaricati, operano senza supervisione esterna. Il costo di inferenza locale continua a scendere.

Per i difensori, questo significa che la difesa provider-based è necessaria ma non sufficiente. Le contromisure devono stratificarsi: detection a livello di provider (auto-disruption, classificatori), detection a livello di rete e endpoint (behavioral analytics, NDR/XDR), detection a livello di ecosistema (intelligence sharing, CSIRT). La migrazione verso modelli self-hosted elimina il primo livello ma non gli altri due. I controlli fondamentali – MFA, patching, segmentazione, least privilege – restano efficaci indipendentemente dal modello utilizzato dall’attaccante.

Raccomandazioni per CISO e security team

L’analisi dell’intera serie converge su direttrici operative concrete per i professionisti della difesa dall’AI offensiva.

Integrare l’AI nella difesa come priorità operativa, non come progetto pilota. Il Cybersecurity Forecast 2026 di Google prevede che l’uso di strumenti AI diventerà la normalità operativa sia per gli attaccanti sia per i difensori. L’ECCC ha stanziato 50 milioni di euro nel Digital Europe Programme 2025-2027 specificamente per soluzioni di cybersecurity AI-powered (Call Cyber 09, ottobre 2025), con 15 milioni dedicati a strumenti per Cyber Hub e CSIRT settoriali. Le organizzazioni italiane possono accedere a questi fondi attraverso i bandi gestiti dall’ECCC, con il coordinamento dell’ACN come punto di contatto nazionale. Il Cyber AI Profile del NIST (IR 8596) fornisce il framework di riferimento per strutturare l’adozione.

Calibrare le difese sulle capacità reali, non sulle competenze presunte. Un attore con competenze minime può oggi sviluppare ransomware con evasione EDR avanzata, condurre campagne di spionaggio su 30 entità simultaneamente, o infiltrare aziende Fortune 500 con identità sintetiche. Il World Economic Forum ha rilevato che il 66% delle organizzazioni prevede che l’AI avrà l’impatto più significativo sulla cybersecurity. La difesa deve essere dimensionata sulla base delle capacità offensive disponibili, non delle competenze attese dell’avversario.

I controlli fondamentali restano la prima linea. L’81% delle intrusioni documentate nella versione 18.1 di MITRE ATT&CK (dicembre 2025) è stato malware-free. L’APT cinese documentato nell’articolo 5 ha sfruttato vulnerabilità in WordPress, credenziali deboli e kernel non aggiornati. La sofisticazione dell’integrazione AI non cambia il fatto che la maggior parte delle intrusioni inizia con problemi risolvibili.

Implementare runtime security per gli ambienti AI aziendali. Le organizzazioni che utilizzano Claude Code, agenti AI o integrazioni MCP devono monitorare le configurazioni operative (file CLAUDE.md o equivalenti), verificare l’integrità dei server MCP connessi e implementare controlli sulla tipologia di operazioni eseguite dagli agenti. L’OWASP Top 10 for Agentic Applications 2026, sviluppato con oltre 100 esperti, identifica i rischi di sicurezza più critici per i sistemi AI autonomi e fornisce linee guida operative.

Contribuire alla condivisione di intelligence. La Direttiva NIS2 (Direttiva UE 2022/2555), recepita in Italia con il D.lgs. 138/2024, impone obblighi di notifica degli incidenti significativi al CSIRT Italia operativi dal 15 gennaio 2026, con la Determinazione ACN n. 379907/2025.

L’implementazione completa delle misure di sicurezza di base è attesa entro ottobre 2026, con l’aggiornamento annuale della registrazione sul portale ACN tra il 15 aprile e il 31 maggio 2026. Parallelamente, il Cyber Resilience Act (Regolamento UE 2024/2847), entrato in vigore il 10 dicembre 2024, introduce dal settembre 2026 l’obbligo per i produttori di prodotti con elementi digitali di segnalare le vulnerabilità attivamente sfruttate entro 24 ore tramite la piattaforma CRA Single Reporting Platform, con report completo entro 72 ore e report finale entro 14 giorni dalla disponibilità di una correzione.

Per le organizzazioni che sviluppano o integrano sistemi AI, il CRA crea un obbligo aggiuntivo di reporting che si sovrappone alla NIS2, rendendo la condivisione di intelligence non solo una buona pratica ma un requisito normativo multilivello.

Il paradosso della disclosure: trasparenza, limiti e scenari aperti

Il report di Anthropic di agosto 2025 è un atto di trasparenza inusuale nel settore. Documentare pubblicamente come la propria piattaforma sia stata sfruttata per sviluppare ransomware, condurre spionaggio industriale e alimentare la frode occupazionale di un regime sanzionato comporta rischi reputazionali evidenti. Come ha osservato Noma Security, questa scelta di trasparenza rende tutti più sicuri, perché consente alla comunità di calibrare le proprie difese su minacce reali anziché su scenari ipotetici.

Il paradosso è che la disclosure funziona come difesa collettiva solo se diventa pratica di settore, non eccezione. OpenAI e Google hanno seguito percorsi analoghi. Ma la copertura resta frammentaria e i livelli di dettaglio disomogenei.

Per l’Europa, il momento è strategico. L’ECCC ha stanziato 353 milioni di euro nel triennio 2025-2027 per la cybersecurity, inclusi 127 milioni per AI e crittografia post-quantistica. L’ACN coordina l’implementazione della NIS2 sul territorio nazionale, con il CSIRT Italia come organo preposto alla gestione degli incidenti.

L’ENISA ha classificato le intrusioni nordcoreane come la terza minaccia più significativa per l’UE nel Threat Landscape 2025. Il Cyber Solidarity Act prevede una rete paneuropea di Cyber Hub per la condivisione di intelligence in tempo reale. L’AI Act (Regolamento UE 2024/1689) richiede ai modelli GPAI con rischio sistemico (oltre 10²⁵ FLOP) adversarial testing e reporting degli incidenti gravi all’AI Office entro 72 ore, con requisiti completi per i sistemi ad alto rischio applicabili da agosto 2026.

I pezzi del mosaico esistono. Ciò che manca è l’integrazione operativa.

Limiti dell’analisi e controargomentazioni

Un’analisi intellettualmente onesta richiede di evidenziare le limitazioni del paradigma difensivo descritto e le controargomentazioni legittime.

La disclosure come blueprint. La documentazione pubblica delle tecniche offensive – il CLAUDE.md come pre-prompt offensivo, l’architettura crittografica del ransomware no-code, i flussi operativi della frode occupazionale – fornisce ai difensori informazioni preziose, ma anche agli attaccanti un catalogo di tecniche validate. L’equilibrio tra valore difensivo e rischio di emulazione resta un dilemma irrisolto, particolarmente per i dettagli tecnici più granulari.

La genericità delle contromisure. Come evidenziato dalla critica di Better Stack, i report dei provider AI descrivono le contromisure in termini generali (classificatori, ban, condivisione di indicatori) senza fornire dettagli sufficienti per una valutazione indipendente della loro efficacia. L’assenza di IoC specifici, metriche di performance dei classificatori, tassi di falsi positivi e negativi, limita la capacità della community di valutare e replicare le difese descritte.

Il bias di selezione. I casi documentati rappresentano le minacce che i provider hanno scoperto e scelto di divulgare. Non conosciamo né la dimensione del sommerso – attori che hanno utilizzato i modelli senza essere individuati – né i criteri di selezione che determinano quali casi vengono pubblicati e quali no. Il International AI Safety Report 2026 ha confermato che le salvaguardie attuali restano aggirabili con tecniche di riformulazione o suddivisione delle richieste, suggerendo che i casi documentati rappresentano una frazione delle attività malevole effettive.

Il rischio di overfit sulla difesa AI. Concentrare le risorse sulla difesa dall’AI offensiva potrebbe distogliere attenzione e budget dai controlli fondamentali che restano la prima linea efficace. L’81% delle intrusioni malware-free documentate da CrowdStrike ricorda che le minacce più comuni non richiedono AI per avere successo.

Queste controargomentazioni non invalidano la necessità di adattamento difensivo. Circoscrivono, però, la portata delle conclusioni e ricordano che il paradigma descritto è un lavoro in corso, non una soluzione definitiva.

Una conclusione che è un punto di partenza

Questa serie di otto articoli ha documentato una trasformazione strutturale nel panorama delle minacce cyber. L’AI non ha inventato il cybercrime, ma ne ha industrializzato la catena del valore, ne ha abbattuto le barriere di ingresso e ne ha compresso i tempi operativi a intervalli incompatibili con le difese tradizionali.

La difesa dall’AI offensiva richiede un adattamento che opera su tre livelli simultanei. Sul piano tattico, behavioral analytics, runtime security e correlazione multi-stadio sostituiscono le detection basate su firma. Sul piano strategico, i framework di valutazione delle minacce devono incorporare il fattore AI enablement – il Cyber AI Profile del NIST (IR 8596) e l’aggiornamento MITRE ATLAS forniscono le fondamenta – abbandonando la classificazione statica degli attori a favore di modelli dinamici basati sulle capacità disponibili. Sul piano istituzionale, la condivisione di intelligence tra provider AI, settore privato e autorità pubbliche deve passare dall’eccezione alla norma operativa, con la NIS2, il Cyber Resilience Act e il Cyber Solidarity Act che forniscono il framework normativo europeo.

L’AI offensiva nella cybersecurity non è un’apocalisse imminente. È una trasformazione reale e documentata che richiede adattamento strutturato, non panico. I controlli fondamentali restano efficaci. Le difese avanzate devono evolvere. La comunità di sicurezza – italiana, europea, globale – deve costruire una risposta integrata alla stessa velocità con cui la minaccia si evolve.

La carta rubata di ieri è l’identità sintetica di oggi e il profilo comportamentale di domani. La difesa dall’AI offensiva non è un capitolo da aggiungere ai playbook esistenti. È il playbook che va riscritto.

Questo è l’ottavo e ultimo articolo della serie “AI offensiva nella cybersecurity”. Il primo articolo ha introdotto il quadro generale delle minacce AI-driven e il framework normativo. Il secondo articolo ha ricostruito l’operazione GTG-2002 e il paradigma del vibe hacking. Il terzo articolo ha analizzato il no-code malware e il caso GTG-5004. Il quarto articolo ha esaminato la frode occupazionale nordcoreana assistita dall’AI. Il quinto articolo ha analizzato l’APT cinese che ha integrato Claude in 12 delle 14 tattiche MITRE ATT&CK. Il sesto articolo ha documentato l’uso offensivo del Model Context Protocol per la profilazione delle vittime. Il settimo articolo ha ricostruito la AI fraud supply chain end-to-end.

 

Condividi sui Social Network:

Ultimi Articoli