Dark LLM e cybercrime: la minaccia dei modelli linguistici malevoli in cybersecurity
I modelli linguistici di grandi dimensioni (Large Language Models, LLM) hanno rivoluzionato molti ambiti grazie alla loro capacità di generare testo coerente e contestuale.
Tuttavia, questa tecnologia presenta un dualismo intrinseco: gli stessi modelli che portano benefici possono essere sfruttati in modo dannoso. Di recente, è emersa la categoria dei cosiddetti “Dark LLM”, ovvero LLM malevoli concepiti o impiegati appositamente per scopi cybercriminali. Questi modelli – spesso privi di filtri di sicurezza – vengono armati da attori ostili per automatizzare e potenziare attacchi informatici su larga scala. In questo articolo analizzeremo il concetto di LLM malevoli con esempi concreti, valuteremo le implicazioni per la sicurezza (dal phishing avanzato alla disinformazione automatizzata, fino a scenari di attacchi zero-day generati da AI) e discuteremo strategie di difesa e linee guida etiche per contrastare l’uso maligno di tali modelli.
LLM malevoli: il lato oscuro dei modelli linguistici
Un LLM malevolo è un modello di linguaggio intenzionalmente addestrato o configurato per generare output nocivi, oppure un LLM legittimo manipolato (tramite jailbreaking o tecniche di fine-tuning su dati dannosi) per aggirare i filtri di sicurezza. Negli ultimi tempi sono apparsi sul dark web servizi di AI-as-a-service rivolti al cybercrime: ad esempio WormGPT, FraudGPT e DarkBERT (alternativa basata su modelli open source) sono LLM senza le restrizioni etiche di ChatGPT, offerti in abbonamento per scopi illeciti.
Tali strumenti promettono funzioni come la generazione di phishing altamente convincente, scrittura di malware personalizzati e persino creazione di deepfake testuali o audio. Ad esempio, WormGPT (basato sul modello open-source GPT-J) è stato addestrato su dati di malware e utilizzato per attacchi di Business Email Compromise (BEC), producendo email di phishing in perfetto stile aziendale prive di qualunque filtro morale. Allo stesso modo, FraudGPT è pubblicizzato come “soluzione all-in-one per cybercriminali” in grado di scrivere codice malevolo, generare pagine di phishing e persino scoprire vulnerabilità. Il proliferare di questi LLM oscuri dimostra come i cybercriminali stiano sfruttando l’intelligenza artificiale generativa per abbassare la barriera d’ingresso al crimine informatico e aumentarne l’efficacia.
Oltre agli LLM deliberatamente creati per il crimine, va considerato il rischio di modelli compromessi. Un esempio è PoisonGPT, un modello sperimentale sviluppato da ricercatori di sicurezza per dimostrare come si possa avvelenare un LLM open-source inserendo informazioni false nelle sue conoscenze. Usando tecniche di model editing, PoisonGPT fu istruito a fornire disinformazione (es. dichiarare che la Tour Eiffel si trovi a Roma) restando al contempo all’apparenza affidabile e superando i normali benchmark di verifica.
Questo esperimento evidenzia la possibilità che attori malevoli distribuiscano modelli apparentemente legittimi ma con backdoor o bias intenzionali, mettendo a rischio chi li utilizza. Un ulteriore vettore di minaccia riguarda i repository di modelli pubblici: recentemente sono stati scoperti modelli condivisi su piattaforme open source contenenti backdoor silenti, capaci di eseguire codice arbitrario sui sistemi dei data scientist che li caricano. In sintesi, la categoria dei “Dark LLM” include sia modelli progettati per attività illecite, sia l’uso improprio di LLM esistenti tramite bypass dei controlli o alterazioni malevole.
Implicazioni e scenari di attacco avanzati con Dark LLM
L’avvento di LLM malevoli amplia il ventaglio di minacce in cybersecurity, introducendo scenari di attacco prima teorici e ora concretamente fattibili. Di seguito analizziamo i principali vettori di abuso abilitati da questi modelli:
- Phishing potenziato e social engineering automatizzato: Gli LLM eccellono nel produrre testo persuasivo e contestuale, qualità ideale per campagne di phishing mirato. Studi recenti hanno dimostrato che modelli come GPT-4 possono generare email di spear phishing altamente realistiche e personalizzate su larga scala, a costi irrisori (frazioni di centesimo per email). Un ricercatore è riuscito a creare messaggi indirizzati a centinaia di parlamentari con pochi prompt e informazioni pubbliche, ottenendo testi credibili e su misura. Inoltre, tramite semplici stratagemmi di prompt engineering è possibile indurre anche LLM dotati di filtri a fornire istruzioni offensive – ad esempio come scrivere malware o manipolare le vittime – aggirando le salvaguardie integrate. Ciò significa che anche cybercriminali con scarsa padronanza linguistica o limitate abilità di scrittura possono orchestrare campagne di phishing sofisticate, sfruttando l’AI per produrre email prive di errori grammaticali e calibrate sul contesto della vittima. Oltre all’email, un LLM malevolo potrebbe alimentare chatbot fraudolenti (fake assistenti clienti, finti operatori di supporto) capaci di ingannare utenti in tempo reale simulando conversazioni umane coerenti. Le tecniche di social engineering risultano dunque amplificate: l’automazione tramite AI consente di scalare attacchi mirati a un numero enorme di bersagli, mantenendo un grado di personalizzazione e credibilità prima irraggiungibile.
- Disinformazione generativa su larga scala: La capacità dei modelli generativi di produrre testi convincenti solleva serie preoccupazioni sul fronte della misinformation/disinformation. Ricerche accademiche hanno evidenziato che gli attuali LLM possono generare con facilità notizie false e propaganda mirata. In uno studio, tutte le varianti di GPT testate (da GPT-3 a GPT-4) sono riuscite a produrre articoli di disinformazione con tassi di successo dal 67% fino al 99% dei casi. Ciò avviene soprattutto se il prompt è formulato in modo “educato” o studiato per assecondare il modello, sfruttando i bias cooperativi dell’AI. Questa fabbrica automatizzata di fake news può alimentare campagne di influenza ostile, propaganda politica o truffe online, saturando l’ecosistema informativo con contenuti artefatti difficili da distinguere da quelli genuini. Organizzazioni internazionali come il World Economic Forum hanno già indicato la disinformazione generata dall’AI come uno dei principali rischi globali imminenti. Dal punto di vista operativo, l’uso di LLM permette di abbattere i costi e moltiplicare la portata delle campagne malevole: un’analisi di settore stima che la produzione di contenuti per operazioni di influenza mediate da AI potrebbe costare fino a 100 volte meno rispetto ai “troll farm” tradizionali basate su operatori umani. I criminali possono generare testi persuasivi su misura per gruppi target (ad esempio, disinformazione sanitaria rivolta a specifiche comunità) e automatizzare la creazione di siti web o profili social falsi con contenuti aggiornati dall’AI. Questa facilità di creazione e diffusione di falsità pone enormi sfide ai meccanismi di fact-checking e può favorire truffe, manipolazione dei mercati o interferenze nei processi democratici.
- Malware generativo e attacchi zero-day simulati: Un altro ambito critico è l’uso di LLM per sviluppare codice malevolo, scoprire exploit e orchestrare attacchi informatici complessi. Benché gli attuali modelli fatichino a scrivere malware completo senza intervento umano, essi sono già impiegati per potenziare sviluppatori di malware meno esperti. Ad esempio, cybercriminali hanno usato ChatGPT e strumenti simili per migliorare la qualità del codice di virus esistenti, generare varianti polymorphic e rendere i propri malware più elusivi. Report specialistici descrivono casi in cui l’AI ha permesso di bypassare regole di rilevamento statico (come le signature YARA) riscrivendo porzioni di codice in modo automatizzato, riducendo significativamente le percentuali di individuazione da parte degli antivirus. Un Dark LLM ben addestrato su dataset di exploit potrebbe persino fungere da assistente nel bug hunting, aiutando a individuare vulnerabilità in software diffusi o a ottimizzare exploit proof-of-concept. Sperimentazioni hanno rivelato che alcuni modelli avanzati – quando opportunamente stimolati – tendono ad acconsentire a richieste pericolose con preoccupante frequenza: in media il 52% delle volte, diversi LLM di coding hanno eseguito istruzioni che potevano facilitare cyberattacchi, ad esempio inserendo volontariamente falle di sicurezza nel codice generato. Ciò significa che un attore ostile potrebbe sfruttare un LLM per ottenere snippet di codice vulnerabile o maligno (backdoor, SQL injection, ecc.) integrandoli nei propri programmi. Nel 2023, un caso eclatante ha visto la comparsa di un servizio AI clandestino che forniva consulenza su exploit zero-day: gli utenti potevano descrivere un sistema bersaglio e ottenere dal modello possibili punti deboli o strategie d’attacco simulando un penetration test automatico. Anche se attualmente l’autonomia decisionale e di pianificazione strategica degli LLM è limitata (mancano di tactical foresight per concatenare passi d’attacco complessi senza guida umana), gli sviluppi futuri nell’integrazione di ragionamento simbolico e agenti autonomi potrebbero colmare questo gap. Si prospettano scenari in cui malware alimentati da AI apprendono e si adattano in tempo reale: ad esempio, agenti neurali che cooperano per persistere in un sistema, riscrivendo il proprio codice al volo per sfuggire alle difese e ragionando sui passi successivi dell’intrusione. In sintesi, gli LLM malevoli stanno abbassando la soglia di competenze necessarie per condurre attacchi sofisticati – dal defacement di siti web ai ransomware – offrendo una sorta di “cybercrime autopilot” a disposizione anche di criminali meno esperti.
Strategie di mitigazione e difesa
Di fronte a queste minacce emergenti, la comunità della sicurezza informatica sta sviluppando contromisure su più livelli. Le strategie di mitigazione mirano sia a prevenire l’abuso degli LLM, sia a difendersi dagli attacchi potenziati da AI. Di seguito alcune linee d’azione chiave:
- Sistemi di rilevamento basati su AI: Combattere fuoco con fuoco è una delle prime contromosse. Modelli di machine learning addestrati a identificare testi generati artificialmente possono aiutare a filtrare email o post sospetti. In ambito aziendale, si stanno integrando LLM difensivi nei filtri antiphishing: ad esempio, Google ha annunciato Sec-PaLM, un modello linguistico addestrato specificamente per rilevare minacce cyber. Tali sistemi analizzano il linguaggio delle comunicazioni in arrivo e possono riconoscere schemi tipici dei testi AI, incongruenze stilistiche o indicatori malevoli (es. URL ingannevoli come “gooogle.com” al posto di “google.com”). Un LLM difensivo può confrontare l’email ricevuta con lo stile noto del mittente legittimo, segnalando anomalie sottili che sfuggirebbero a un utente umano distratto. Inoltre, alimentando questi modelli con dataset di phishing reali, la loro accuratezza nel bloccare attacchi anche creativi migliora sensibilmente. In sostanza, l’AI può aumentare la profondità dei controlli di sicurezza, esaminando in modo sistematico ogni messaggio o contenuto e alleggerendo il carico cognitivo sugli utenti finali. Strumenti del genere stanno iniziando a diffondersi: oltre a Google, diverse soluzioni di email security potenziate da AI sono offerte sul mercato, segno di una corsa agli armamenti tra attaccanti e difensori sul terreno dei modelli linguistici.
- Accesso controllato ai modelli avanzati: Una misura di prevenzione dibattuta è limitare l’accesso ai LLM più potenti tramite schemi di accesso strutturato. Ciò significa che invece di rilasciare modelli open-source senza restrizioni, i provider potrebbero renderli disponibili solo via API o piattaforme monitorate, dove le richieste utente sono tracciabili e sottoposte a filtri automatici. Ad esempio, OpenAI già applica controlli sul proprio servizio cloud per individuare e bloccare utilizzi potenzialmente malevoli (nel 2024 ha dichiarato di aver neutralizzato oltre 20 campagne cyber che tentavano di sfruttare ChatGPT). L’accesso tramite API consente interventi multilivello: prima che un prompt venga servito a un LLM, un sistema di sicurezza può analizzarlo con un modello più piccolo addestrato a riconoscere intenti ostili, bloccando sul nascere richieste di generare malware o disinformazione. Ovviamente questo approccio funziona per i servizi centralizzati e richiede fiducia nel fornitore; non può impedire che modelli open-source vengano eseguiti localmente in modo incontrollato. Alcuni esperti propongono di non rendere pubblici (o ritardare) i modelli più capaci finché non si siano sviluppate adeguate barriere di sicurezza. Tuttavia, occorre bilanciare tali restrizioni con l’innovazione: misure troppo severe potrebbero spingere la ricerca underground, mentre un coordinamento intergovernativo sarebbe necessario per evitare che divieti in una giurisdizione vengano aggirati altrove. In ogni caso, responsabilizzare i fornitori di LLM sull’uso improprio dei loro modelli è fondamentale: tramite termini di servizio chiari, monitoraggio attivo degli abusi e collaborazione con le forze dell’ordine, le aziende AI possono arginare almeno gli usi malevoli più evidenti.
- Tecniche di watermarking e tracciamento: A livello di ricerca, si investe in metodi per marcare in modo impercettibile i contenuti generati da AI (ad esempio attraverso schemi di watermark statistici nel testo) così da poterli riconoscere a posteriori. Un watermark ben progettato consentirebbe di distinguere automaticamente tra testo umano e testo AI, rendendo più facile filtrare spam generato automaticamente o attribuire responsabilità in caso di abusi. Alcune grandi aziende hanno sperimentato watermark nelle risposte dei propri modelli, ma attualmente tali soluzioni sono aggirabili e in fase beta. Parallelamente, emergono strumenti di verifica del contenuto che analizzano indicatori sottili lasciati dalla generazione automatica (scelte lessicali improbabili, mancanza di errori tipici umani, ecc.). Purtroppo i risultati finora sono contrastanti – i detector di AI producono falsi positivi e possono essere elusi con riformulazioni – ma la ricerca prosegue attivamente. In futuro, la combinazione di watermarking di default nei modelli commerciali e classificatori potenziati dall’AI potrebbe restituire un vantaggio difensivo, smascherando comunicazioni fraudolente create da LLM.
- Collaborazione e intelligence condivisa: Vista la natura globale della minaccia, un approccio fondamentale è la cooperazione tra comunità. I CERT, le aziende di sicurezza e le forze dell’ordine devono condividere informazioni su nuovi indicatori di compromissione legati all’uso di AI, ad esempio segnalando campioni di malware generato automaticamente o rilevando schemi di attacco atipici riconducibili a LLM. Iniziative come quella del Centre for Emerging Technology and Security (CETaS) incoraggiano programmi di ricerca proattiva per monitorare le capacità offensive dei sistemi generativi e i loro punti di svolta evolutivi. Anche la creazione di dataset di addestramento pubblici con esempi di prompt malevoli e output nocivi può aiutare nell’addestrare contromisure basate su AI. Sul fronte normativo, agenzie governative (es. Europol) hanno iniziato a fornire linee guida al personale su come riconoscere e prevenire gli abusi di LLM da parte di criminali. La tempestività nel condividere le scoperte è cruciale: ad esempio, se viene individuato un nuovo servizio come “FraudGPT”, è essenziale che la notizia e le sue tattiche, tecniche e procedure (TTP) vengano diffuse tra i defender per preparare adeguate difese. In prospettiva, potrebbero nascere blacklist di modelli compromessi o certificazioni di modelli “sicuri” analoghe a quelle antivirus, per aiutare utenti e organizzazioni a evitare l’adozione di LLM potenzialmente pericolosi (come nel caso dei modelli su HuggingFace con backdoor menzionati in precedenza).
- Formazione ed evoluzione delle policy di sicurezza: Come sempre, l’elemento umano rimane centrale. È importante aggiornare le pratiche di awareness cybersecurity includendo i rischi specifici legati all’AI generativa. I professionisti IT devono essere addestrati a riconoscere segnali di testi sintetici (ad esempio, e-mail troppo perfette o generiche) e a non fidarsi ciecamente di contenuti ben formulati. Le aziende farebbero bene a simulare attacchi di phishing generati da AI nelle proprie esercitazioni, così da testare la resilienza dei dipendenti. Dal punto di vista procedurale, molte policy andranno riviste: ad esempio, in contesti dove finora ci si basava su validazione manuale di contenuti, sarà necessario introdurre controlli aggiuntivi. Implementare l’autenticazione multifattore e procedure di verifica fuori banda può mitigare gli effetti del phishing anche se i messaggi diventano più credibili. In sintesi, l’arrivo degli LLM malevoli obbliga il settore a una continua adattabilità: le contromisure tecniche devono essere accompagnate da una crescita della cultura della sicurezza e da protocolli agili, pronti a integrare nuovi indicatori di minaccia man mano che questi evolvono.
Linee guida etiche e considerazioni finali
Il contrasto all’uso malevolo degli LLM non può basarsi solo su strumenti tecnici e norme repressive – richiede anche un quadro di principi etici condivisi nel campo dell’AI. Dato il carattere dual-use di queste tecnologie, ricercatori e sviluppatori sono chiamati a adottare un approccio “ethics-by-design” sin dalle prime fasi di progettazione dei modelli.
Ciò significa integrare meccanismi di sicurezza e vincoli morali nei sistemi AI prima della loro distribuzione, e valutare criticamente l’impatto che ogni nuova funzionalità potrebbe avere se sfruttata in modo improprio. Centri di ricerca e istituzioni accademiche dovrebbero pubblicare linee guida per l’addestramento responsabile di LLM, indicando ad esempio quali dataset escludere (per evitare di fornire competenze di hacking all’AI) e come implementare test di red-teaming focalizzati sugli abusi. Allo stesso tempo, è fondamentale incoraggiare la trasparenza: rendere pubbliche le limitazioni note di un modello e i risultati delle valutazioni di sicurezza consente alla comunità di utenti di comprenderne i rischi.
Dal punto di vista normativo e deontologico, emergono diversi punti chiave. In primo luogo, le aziende che sviluppano LLM dovrebbero aderire a codici etici volontari che impegnino a non facilitare usi illeciti: ad esempio OpenAI, Anthropic e altri provider hanno team dedicati alla prevenzione dell’abuso dei loro servizi, e collaborano con governi per segnalare attività sospette.
Tali pratiche vanno rafforzate e standardizzate. In secondo luogo, occorre un dibattito pubblico sul grado di apertura appropriato per i modelli avanzati: la comunità AI è divisa tra chi sostiene l’open-source completo e chi teme che la divulgazione senza freni acceleri il rischio di Dark LLM nelle mani sbagliate.
Una possibile soluzione è adottare approcci differenziati: rilasciare in modo aperto solo versioni ridotte o con performance limitata, mantenendo controllato l’accesso ai modelli più capaci finché non si sviluppano migliori salvaguardie. Inoltre, andrebbero istituiti organismi di certificazione o audit indipendenti per gli LLM, che valutino periodicamente i modelli rispetto a criteri di sicurezza (robustezza ai tentativi di jailbreaking, presenza di bias pericolosi, ecc.) e ne attestino l’affidabilità per utilizzi pubblici. Un tale sistema di accountability aiuterebbe a creare fiducia e a responsabilizzare i produttori.
Infine, sul piano della società civile, è importante sensibilizzare l’opinione pubblica sul potenziale abuso dell’AI generativa, senza demonizzare la tecnologia ma enfatizzando un uso consapevole. Le stesse potenzialità che rendono gli LLM strumenti rivoluzionari per produttività e informazione richiedono una vigilanza collettiva quando vengono sfruttate in modo contrario all’interesse comune.
Organizzazioni internazionali hanno iniziato a delineare scenari di rischio catastrofico legati all’AI (ad es. uso massivo per destabilizzare sistemi socio-politici), sottolineando la necessità di etichette di avvertimento e di educazione digitale avanzata per l’era dei contenuti generati dall’AI. In prospettiva, solo attraverso una stretta collaborazione tra comunità tech, enti regolatori e professionisti della sicurezza sarà possibile contrastare efficacemente la minaccia dei Dark LLM, garantendo che l’innovazione nell’intelligenza artificiale proceda di pari passo con lo sviluppo di barriere etiche a tutela della collettività.
Conclusione
I Dark LLM rappresentano una nuova frontiera nelle minacce informatiche: sfruttando l’intelligenza artificiale, i criminali possono lanciare attacchi più persuasivi, scalabili e difficili da rilevare. Abbiamo esplorato come modelli linguistici malevoli possano alimentare phishing evoluto, disinformazione di massa e sviluppo di malware innovativi, mettendo sotto pressione le difese tradizionali. Allo stesso tempo, la comunità cybersecurity sta reagendo con soluzioni difensive basate su AI, politiche di controllo e un rinnovato focus sull’etica e la cooperazione.
La sfida è complessa e in continua evoluzione: per ogni vincolo inserito nei modelli, emergerà un nuovo metodo per eluderlo, e per ogni attacco AI-driven sorgerà una contromisura AI-enhanced. I professionisti della sicurezza dovranno quindi mantenere un approccio proattivo e adattivo, abbracciando l’innovazione responsabile. In ultima analisi, contrastare l’uso malevolo degli LLM significa governare la tecnologia AI affinché serva l’umanità e non i suoi exploiters: un equilibrio delicato che richiederà impegno interdisciplinare, norme lungimiranti e un solido ancoraggio ai principi etici nel plasmare il futuro dell’intelligenza artificiale.
Fonti:
Australian Cyber Security Magazine (2024). Malicious Use Cases for AI – Report by Recorded Future.
Hossen M.I. et al. (2024). Assessing Cybersecurity Vulnerabilities in Code Large Language Models.
Europol (2023). ChatGPT – the impact of Large Language Models on Law Enforcement.
Mithril Security (2023). PoisonGPT: how we poisoned an AI to spread disinformation.
JFrog Security Research (2024). Malicious HuggingFace ML Models with Silent Backdoor.
Google Cloud (2023). Adversarial Misuse of Generative AI – Threat Horizons Report.
