AI degenerativa: il degrado dei modelli di intelligenza artificiale e rischi per la cybersecurity
L’AI degenerativa si riferisce al fenomeno per cui i modelli di intelligenza artificiale (IA) degradano le proprie prestazioni nel tempo, soprattutto se non vengono adeguatamente mantenuti. In altre parole, un modello che inizialmente era accurato può col tempo diventare meno affidabile a causa di vari fattori come cambiamenti nei dati o nell’ambiente operativo.
Questo è un problema cruciale in cybersecurity, dove sistemi basati su IA (come quelli per il rilevamento di minacce o l’autenticazione biometrica) devono adattarsi a minacce in continua evoluzione. In questo articolo esamineremo cos’è l’“AI degenerativa” e perché avviene, con un focus particolare sui rischi per la sicurezza informatica. Illustreremo esempi pratici, e proporremo strategie per prevenire o mitigare la degenerazione dei modelli. Infine, esamineremo trend emergenti – come l’AI auto-rigenerativa, l’apprendimento continuo e il monitoraggio automatico del drift – che mirano a mantenere i modelli IA sempre efficaci e resilienti.
Cosa si intende per “AI degenerativa”?
Con AI degenerativa intendiamo il degrado graduale delle performance di un modello IA nel tempo, dovuto a mutate condizioni rispetto a quelle in cui il modello è stato inizialmente addestrato. Diversi fenomeni contribuiscono a questa degenerazione delle prestazioni:
- Data Drift (deriva dei dati): Si verifica quando la distribuzione dei dati in ingresso cambia rispetto a quella dei dati di addestramento, pur restando invariata la relazione concettuale tra input e output. In pratica, le caratteristiche statistiche dei dati che il modello vede in produzione divergono da quelle del dataset originale. Questo può accadere, ad esempio, se emergono nuovi tipi di traffico di rete, nuovi formati di log o cambiamenti nelle fonti dei dati. Il risultato è che il modello diventa meno accurato o commette più errori perché si trova ad operare su dati “diversi” da quelli per cui era stato ottimizzato.
- Concept Drift (deriva del concetto): Rappresenta un cambiamento nel rapporto funzionale tra input e output, ovvero nel concetto stesso che il modello deve apprendere. In questo caso, i dati di addestramento diventano rapidamente obsoleti perché cambia la realtà sottostante. Ad esempio, in un contesto di sicurezza informatica, ciò accade quando mutano le definizioni di ciò che è considerato “maligno” o “benigno”: nuove vulnerabilità e nuove tecniche di attacco possono trasformare istanze prima considerate innocue in minacce reali. Un modello addestrato su vecchie minacce potrebbe non riconoscere quelle nuove, a meno di non essere aggiornato. Il concept drift infrange l’assunto che i dati seguano la stessa distribuzione nel tempo (assunto i.i.d.) e rende insostenibile l’uso a lungo termine di modelli statici in ambienti dinamici.
- Attacchi adversariali (evasion): Si tratta di attacchi intenzionali volti a ingannare il modello fornendogli in input dati appositamente manipolati. Anche perturbazioni minime e impercettibili dei dati di input possono compromettere le predizioni di un modello di machine learning. In ambito cybersecurity, aggressori esperti possono sfruttare questa vulnerabilità: ad esempio, è stato dimostrato che basta aggiungere pochi byte di “rumore” ad un flusso di rete malevolo per far sì che passi inosservato da vari classificatori di botnet basati su ML. Allo stesso modo, piccoli cambiamenti ad un’immagine (es. ad un volto) possono ingannare un sistema di riconoscimento facciale, inducendolo a classificazioni errate. Gli attacchi adversariali di evasione agiscono tipicamente nella fase di inference (dopo l’addestramento), modificando gli input per causare errori di classificazione senza alterare il modello stesso.
- Contaminazione del dataset (Data Poisoning): In questo scenario, l’attacco avviene durante la fase di addestramento o aggiornamento. Un avversario riesce a inserire dati manipolati o etichettati in modo scorretto nel dataset di training, compromettendo così il modello a monte. Questi attacchi di poisoning, detti anche di contaminazione, puntano a far apprendere al modello comportamenti errati: ad esempio facendo sì che etichetti come “sicuro” qualcosa di pericoloso se presenta uno specifico pattern nascosto. Poiché spesso le modifiche sono sottili, può essere difficile per un umano accorgersi che il dataset è stato avvelenato. Un caso celebre è quello del chatbot Tay di Microsoft nel 2016, “addestrato” dai troll su Twitter con frasi offensive: il risultato fu un modello degenerato che produceva output inaccettabili, esito di un tipico attacco di contaminazione dei dati di apprendimento.
- Mancanza di aggiornamenti (modelli obsoleti): Anche senza attacchi espliciti, un modello può degenerare semplicemente perché non viene mai aggiornato o ritarato. Col passare del tempo il mondo cambia: compaiono nuovi tipi di malware, nuove tecniche di intrusione, nuove modalità con cui gli utenti interagiscono con i sistemi. Un modello statico addestrato solo su dati storici finisce per diventare stantio. I dati di training si sganciano dal contesto reale corrente, risultando datati rispetto all’ambiente di deploy. Questo scollamento porta il modello a commettere sempre più errori (ad esempio, identificando minacce ormai superate ma non riconoscendo quelle nuove). In letteratura questo problema viene definito anche knowledge staleness: la conoscenza del modello diventa “stantia” se non viene periodicamente rinfrescata con conoscenza aggiornata. In ambito sanitario, ad esempio, si è visto che modelli diagnostici non aggiornati con le ultime linee guida cliniche finiscono per applicare criteri superati e sbagliare diagnosi. Analogamente, in sicurezza informatica un modello anti-malware non aggiornato potrebbe non riconoscere un nuovo ransomware perché “ignora” le minacce emerse dopo la sua ultima formazione.
In sintesi, data drift e concept drift rappresentano derive naturali dovute all’evoluzione del contesto (spesso involontarie), mentre gli attacchi adversariali e la contaminazione del dataset sono cause intenzionali indotte da attori malintenzionati; infine la mancanza di aggiornamenti è una causa organizzativa dovuta a inerzia o difficoltà nel ciclo di vita dei modelli. Tutti questi fattori contribuiscono al fenomeno dell’AI degenerativa, degradando progressivamente l’affidabilità di soluzioni basate su IA se non vengono affrontati in modo proattivo.
Rischi specifici per la cybersecurity
Nel dominio della sicurezza informatica, l’AI degenerativa può avere conseguenze gravi. Di seguito analizziamo alcuni rischi specifici, evidenziando come il degrado dei modelli possa tradursi in vulnerabilità reali:
Vulnerabilità nei sistemi di rilevamento minacce automatizzati
Molti sistemi di intrusion detection/prevention (IDS/IPS), antivirus e SIEM moderni integrano modelli di machine learning per riconoscere attività malevole. Il concept drift in questo contesto è particolarmente insidioso: l’ambiente informatico e le tattiche degli attaccanti cambiano di continuo, quindi un modello di rilevamento addestrato su vecchi attacchi può perdere efficacia di colpo al comparire di tattiche nuove. Ad esempio, se emerge un nuovo exploit o una nuova variante di malware (zero-day), inizialmente il modello potrebbe non rilevarlo affatto perché al di fuori della sua esperienza.
Studi accademici hanno documentato degradamenti significativi nelle performance di classificatori di malware e anomalie di rete in presenza di concept drift. Inoltre, il data drift può portare a uno squilibrio nei dati di rete (si pensi all’introduzione di dispositivi IoT che generano traffico differente): ciò può causare un aumento dei falsi positivi o, peggio, dei falsi negativi nelle rilevazioni. Un esempio pratico: l’aggiunta di un nuovo segmento di rete aziendale con comportamenti atipici può generare valanghe di allarmi anomali (falsi positivi) perché il modello di IDS non è abituato a quel profilo di traffico.
Al contempo, un attaccante può sfruttare l’inerzia del modello: se sa che il sistema di rilevamento non è addestrato su una certa tecnica, la utilizzerà per passare indisturbato. Un caso ipotetico plausibile è quello di un algoritmo anti-phishing basato su IA che, non essendo aggiornato con gli schemi di phishing più recenti, fallisce nel riconoscere una nuova ondata di email malevole: i cyber criminali potrebbero orchestrare campagne mirate proprio approfittando di questo gap. In sostanza, modelli degradati espongono l’infrastruttura a buchi nella rete di difesa, vanificando il vantaggio inizialmente ottenuto con l’automazione intelligente.
Errori nei sistemi di autenticazione biometrica
Anche i sistemi di riconoscimento biometrico (come il riconoscimento facciale o delle impronte digitali) basati su IA possono subire un decadimento delle prestazioni nel tempo, con implicazioni per la sicurezza. Un modello di face recognition, ad esempio, potrebbe funzionare bene al momento del deploy, ma poi perdere accuracy man mano che cambiano le condizioni ambientali o le caratteristiche dell’utenza. Fenomeni di information drift sono stati osservati in sistemi biometrici: la variabilità dei tratti del volto, del timbro di voce o dello stato fisiologico di un soggetto nel tempo può introdurre sia cambiamenti a breve termine (es. barba fatta crescere, stanchezza) sia a lungo termine (invecchiamento, variazioni demografiche).
Queste variazioni possono portare ad aumenti di falsi negativi (utenti legittimi non riconosciuti) o, peggio, falsi positivi (accessi non autorizzati concessi per errore) se il modello non viene tarato sui nuovi dati. Ad esempio, un sistema di controllo accessi basato sul volto potrebbe faticare a riconoscere dipendenti dopo che questi hanno cambiato acconciatura o indossano mascherine, se tali situazioni non erano presenti nel training.
Parallelamente, la degenerazione di un modello biometrico può aprire varchi ad attacchi di spoofing: aggressori potrebbero sfruttare il fatto che il classificatore non è aggiornato con le ultime tecniche di frode. Si pensi ai progressi nei deepfake o nella creazione di maschere 3D: un modello non allenato a identificarli potrebbe essere tratto in inganno. Un noto esempio viene dal 2017, quando ricercatori hanno ingannato il sistema Face ID di Apple utilizzando una maschera stampata in 3D del volto del legittimo proprietario.
In laboratorio, sono riusciti a sbloccare il telefono sfruttando una rappresentazione artificiale del volto, evidenziando come un modello biometrico possa fallire di fronte a input sofisticati e fuori distribuzione. Anche se questo è un attacco deliberato (adversarial), un modello “invecchiato” e non irrobustito potrebbe essere ancora più vulnerabile a tali exploit. Fortunatamente, la ricerca propone contromisure: un recente studio del 2024, ad esempio, ha introdotto un approccio adattivo ispirato al sistema immunitario per i sistemi di riconoscimento facciale, mostrando che l’apprendimento adattivo può mitigare l’effetto del drift e migliorare l’affidabilità dell’autenticazione biometrica contro tentativi di intrusione avanzati.
Fallimenti nei modelli di classificazione delle minacce
Oltre al rilevamento di intrusi in tempo reale, l’IA è impiegata per classificare e filtrare contenuti potenzialmente pericolosi, come file maligni, URL di phishing, spam, ecc. Anche qui l’AI degenerativa rappresenta un rischio. Un classificatore di malware basato su machine learning, ad esempio, può diventare inefficace se evolvono le famiglie di malware.
Dopo l’addestramento iniziale, infatti, i malware continuano ad evolversi: nuove varianti e famiglie appaiono regolarmente e spesso adottano tecniche mai viste prima per eludere i controlli. Uno studio ha descritto questo scenario come “invecchiamento” dei modelli di classificazione malware: col tempo il modello perde colpi perché i campioni futuri non assomigliano più a quelli passati.
Il rischio è duplice: da un lato, il modello fatica a riconoscere le nuove minacce (ad esempio un malware “fileless” o basato su tecniche in-memory potrebbe passare sotto il radar di un motore anti-malware tradizionale addestrato su eseguibili file-based); dall’altro lato, può aumentare il tasso di falsi allarmi perché il modello, insicuro di fronte a comportamenti sconosciuti, li potrebbe classificare erroneamente come malevoli, disturbando le attività lecite.
Consideriamo anche i filtri anti-spam o anti-phishing: se non aggiornati, possono essere facilmente superati da nuove campagne di phishing che utilizzano linguaggio e tecniche diverse dalle email di spam del passato.
Un caso plausibile è quello di un filtro antispam di vecchia generazione addestrato a bloccare messaggi contenenti certi keyword e schemi; con l’avvento di attacchi di spear phishing molto personalizzati (che non contengono più i vecchi indizi tipici dello spam), quel filtro potrebbe lasciare passare email pericolose nelle caselle degli utenti, esponendo l’organizzazione a violazioni. Infine, va menzionato che modelli degradati possono generare cali di fiducia da parte degli analisti di sicurezza: se un sistema automatizzato commette troppi errori (mancando attacchi o segnalando falsi problemi), i professionisti tenderanno a ignorarne gli output, perdendo così i benefici dell’AI e potenzialmente mancando segnali di attacco reali.
In tutti questi esempi, il filo conduttore è che una IA “degenerata” diventa un punto debole: gli attaccanti possono sfruttare i suoi errori prevedibili, mentre i difensori perdono uno strumento prezioso o, peggio, si affidano a un sistema che li illude di essere al sicuro mentre non lo sono realmente.
Esempi pratici e casi di studio
Per concretizzare ulteriormente questi concetti, consideriamo alcuni scenari pratici (ipotetici ma realistici) di degenerazione dei modelli AI in ambito sicurezza:
- Intrusion Detection in deriva: Un’azienda implementa un sistema IDS basato su machine learning addestrato sui pattern di rete dell’ultimo anno. Nei primi mesi, il modello rileva correttamente varie scansioni di porti, exploit noti e comportamenti anomali. Tuttavia, col passare del tempo, l’infrastruttura IT dell’azienda evolve: vengono aggiunti nuovi server e dispositivi IoT, e il traffico “normale” di rete cambia profilo. Inoltre, gli attacker sviluppano nuove tecniche di attacco mai viste durante l’addestramento (es. attacchi fileless o utilizzo di protocolli insoliti). Dopo circa sei mesi, l’IDS inizia a perdere colpi: genera numerosi allarmi per attività legittime (perché per lui anomale rispetto al vecchio profilo) e al contempo fallisce nel riconoscere un nuovo attacco zero-day che sfrutta un protocollo non monitorato nei dati di training. L’AI, in pratica, è andata “fuori taratura” a causa di data drift (nuovi pattern leciti non compresi) e concept drift (nuovi attacchi ignoti). L’incidente insegna al team di cybersecurity che affidarsi a modelli non aggiornati può creare un falso senso di sicurezza: dopo l’attacco, si rendono conto che il modello aveva bisogno di manutenzione continua, aggiornamento del dataset e ridefinizione delle soglie per restare efficace.
- Autenticazione biometrica fallita: Un grande ufficio adotta un sistema di controllo accessi basato sul riconoscimento facciale dei dipendenti, eliminando badge e chiavi. Il modello di AI è stato addestrato con le foto di tutti i dipendenti scattate all’inizio del progetto. Inizialmente funziona bene: quasi nessun intruso riesce a entrare e il tasso di errore è basso. Dopo un anno, tuttavia, alcuni dipendenti lamentano difficoltà ad essere riconosciuti. Analizzando, il team IT scopre che molti hanno cambiato look (barba, occhiali diversi) o che le condizioni di illuminazione all’ingresso sono diverse a seconda dell’ora del giorno, causando false rejection. Il modello mostra segni di degenerazione: non avendo mai appreso queste variazioni, rifiuta accessi legittimi più frequentemente. Nel frattempo, un tester di sicurezza interno prova a ingannare il sistema con una maschera 3D riproducente il volto di un collega e riesce ad accedere illegalmente. Questo rivela che il modello non disponeva di meccanismi anti-spoofing aggiornati. Il caso spinge l’azienda a re-istruire periodicamente il modello inserendo nuove immagini aggiornate di ogni dipendente e scenari di attacco (es. foto con mascherine, tentativi di accesso con foto o video) per rendere il sistema più robusto. Viene anche integrato un sensore di profondità per mitigare i tentativi con foto piatte o maschere. La lezione appresa è che la biometria con IA richiede aggiornamento continuo e validazione, altrimenti l’affidabilità cala e la sicurezza viene compromessa da evoluzioni sia naturali (aspetto umano) che malevole (spoofing).
- Modello anti-malware obsoleto: Una software house specializzata in sicurezza endpoint rilascia nel 2024 un prodotto antivirus dotato di un motore di machine learning per identificare malware sconosciuti. Il motore è stato addestrato su milioni di file raccolti fino al 2023, inclusi ransomware, trojan e miner di criptovaluta noti. Nei test iniziali, il modello individua efficacemente anche nuove varianti non ancora coperte dalle firme tradizionali. Tuttavia, all’inizio del 2025 compare una nuova famiglia di ransomware che adotta tecniche completamente diverse (ad esempio, risiede interamente in memoria e sfrutta componenti legittimi di sistema, tecnica “Living off the Land”). Gli esperti di malware scoprono che il motore ML dell’antivirus non rileva questa minaccia, permettendo all’infezione di diffondersi in alcune aziende clienti. L’analisi post-mortem rivela che il modello era “invecchiato”: il suo dataset di training non conteneva nulla di simile al nuovo ransomware, che quindi veniva classificato come processo benigno. In parallelo, viene notato che il modello produceva alcuni falsi positivi segnalando come malware certi tool interni usati dagli amministratori (mai visti prima, quindi scambiati per potenzialmente ostili). Questo scenario rispecchia un classico caso di concept drift nel malware: il panorama delle minacce evoluto ha reso parzialmente obsoleto il modello. La software house corre ai ripari rilasciando in emergenza un aggiornamento del modello addestrato con esempi del nuovo ransomware e varianti simili. In seguito, istituisce un programma di continuous learning: il modello verrà aggiornato ogni mese con campioni freschi di malware raccolti globalmente, e verranno implementati sistemi di drift detection per capire in anticipo se le sue prestazioni calano su nuove minacce (ad esempio monitorando se aumenta il tasso di file sconosciuti non riconosciuti rispetto alla telemetria globale).
Questi esempi, sebbene ipotetici, riflettono situazioni plausibili e in parte già osservate nel mondo reale. Sottolineano la necessità di vigilare costantemente sullo stato dei modelli AI in produzione e di predisporre procedure di risposta (aggiornamento, re-training, validazione manuale) quando si sospetta che un modello stia degenerando.
Strategie di prevenzione e mitigazione della degenerazione
Affrontare il problema dell’AI degenerativa richiede un approccio proattivo e multilivello. Di seguito elenchiamo alcune strategie chiave per prevenire o mitigare il degrado dei modelli IA in contesti di sicurezza informatica:
Monitoraggio continuo delle performance e del drift
È fondamentale implementare strumenti di monitoraggio attivo che controllino nel tempo l’accuratezza e altri metriche del modello in produzione. Ciò include confrontare le distribuzioni dei nuovi dati con quelle di training (tramite statistiche, test di ipotesi o misure di distanza come MMD, K-L divergence, ecc.) e sorvegliare gli output del modello per segni di calo di performance.
Un sistema di monitoraggio può ad esempio rilevare che la percentuale di email classificate come spam è drasticamente calata nell’ultima settimana, segnalando un potenziale concept drift (forse sono comparsi nuovi tipi di spam non riconosciuti). Oppure, test statistici possono far emergere che la distribuzione di certi feature di rete è cambiata (indicando data drift). Rilevare precoce questi cambiamenti è cruciale: permette di intervenire prima che il degrado provochi incidenti seri. Il monitoraggio dovrebbe coprire sia i dati in input (per cogliere derive nei dati) sia i risultati del modello (per cogliere cali di accuratezza).
Strumenti di drift detection integrati nei pipeline MLOps possono automatizzare questi controlli, inviando alert o addirittura scatenando procedure automatiche di retraining quando vengono superate certe soglie di drift. In ogni caso, il monitoraggio continuo è parte essenziale di una buona governance dell’AI in produzione.
Aggiornamenti periodici e ri-addestramento con nuovi dati
La contromisura più diretta al degrado è la manutenzione costante del modello. I modelli di machine learning non possono essere installati e dimenticati: richiedono un ciclo di vita di update analogo (se non più frequente) a quello del software tradizionale. Nella pratica, ciò significa pianificare regolarmente fasi di ri-addestramento del modello incorporando dati freschi che riflettano lo stato attuale del dominio.
Ad esempio, un modello anti-malware dovrebbe essere ri-addestrato includendo le più recenti minacce emerse, e un modello di filtraggio spam deve apprendere le ultime tattiche di phishing in circolazione. L’aggiornamento dev’essere abbastanza frequente da prevenire grossi gap (NIST raccomanda di stabilire trigger per la manutenzione correttiva al verificarsi di drift dei dati o del modello). Tuttavia, aggiornare un modello non è banale: occorre disporre di nuovi dati etichettati di qualità (cosa non sempre immediata, specie per minacce nuove che richiedono analisi manuali). Inoltre, bisogna evitare il problema del catastrophic forgetting: un modello ri-addestrato su dati nuovi potrebbe peggiorare sulle conoscenze precedenti se non si applicano tecniche di regularization o replay dei vecchi dati.
Nonostante queste sfide, l’esperienza mostra che l’unica “cura” pratica al concept drift è aggiornare costantemente i sistemi di ML con nuovi dati che riflettono i trend correnti. Organizzativamente, questo implica investire nell’infrastruttura MLOps per automazione del retraining e del deployment di nuovi modelli, e mantenere stretta collaborazione tra data scientist e team di sicurezza operativa affinché i modelli restino allineati alle minacce attuali.
Validazione umana e testing periodico
Oltre agli aggiornamenti automatici, è buona prassi coinvolgere periodicamente degli esperti umani per verificare che i modelli continuino a comportarsi correttamente. Ad esempio, i team di sicurezza possono effettuare red teaming sui modelli di AI: simulare attacchi nuovi, creare adversarial examples, e vedere come risponde il modello.
Questo tipo di test consente di identificare punti deboli specifici (es. “il nostro IDS non riconosce attacchi SQL injection polimorfi”) e di correggerli prima che siano sfruttati da veri attaccanti. Allo stesso modo, in un sistema biometrico si possono effettuare test di spoofing controllati (con volti stampati, gemelli digitali, ecc.) per valutare la robustezza del modello e decidere se servono miglioramenti.
La validazione periodica include anche l’esame di campioni di output: analisti umani possono rivedere gli alert generati dal modello nell’ultimo mese e verificare se erano corretti o se il modello ha fatto errori inaccettabili. Questo processo di human-in-the-loop aiuta a mantenere un feedback loop: se si notano errori sistematici nuovi, si raccolgono quei casi per ri-addestrare il modello correggendo il tiro. In sintesi, l’IA in cybersecurity non dovrebbe funzionare in completa autonomia continuativa senza supervisione: è auspicabile un approccio ibrido in cui l’intelligenza umana controlla periodicamente l’intelligenza artificiale, soprattutto in ambienti ad alto rischio.
Migliorare la resilienza tramite tecniche avanzate
Diversi accorgimenti tecnici possono aumentare la robustezza intrinseca dei modelli ai fenomeni degenerativi. Contro gli attacchi adversariali (evasion), ad esempio, si può ricorrere all’adversarial training: includere durante l’addestramento esempi perturbati e ostili, così che il modello impari a non farsi ingannare da piccole variazioni.
Anche se non esiste ad oggi una soluzione universale agli attacchi adversariali (ogni contromisura nota tende ad essere elusa da nuovi attacchi, e talvolta riduce la performance base del modello), combinare più tecniche può elevare la barriera: ad esempio input preprocessing (filtrare rumore, normalizzare immagini per ridurre l’efficacia delle perturbazioni), modelli con architetture robuste o ensembles di modelli che votano riducendo la probabilità che tutti vengano ingannati dallo stesso pattern adversariale.
Per la data poisoning, una mitigazione è implementare rigidi controlli di data hygiene: validare le fonti dei dati di training, utilizzare dataset trusted e isolare eventuali contributi esterni sospetti. Possono essere impiegati algoritmi di outlier detection durante il training per individuare e scartare dati anomali potenzialmente inseriti da avversari.
Ad esempio, controllare la coerenza delle etichette e usare più revisori per dati critici riduce il rischio che dati contaminati passino inosservati. Si possono anche sfruttare approcci di robust learning (p.es. down-weighting di campioni che abbassano troppo la performance in validation). Un ulteriore controllo raccomandato è mantenere versioning e audit trail dei dataset e modelli: strumenti di data version control possono tracciare ogni modifica al dataset di addestramento, rendendo più facile individuare ex-post se e quando è stata introdotta una porzione di dati anomala.
Questo è importante sia per reagire in caso di sospetto poisoning, sia per avere la possibilità di effettuare rollback a un modello precedente funzionante mentre si risolve il problema. Infine, sul fronte del concept drift, esistono approcci di domain adaptation e transfer learning che possono rendere i modelli più adattabili: ad esempio, addestrare il modello con tecniche che lo rendano meno sensibile alle specifiche distribuzioni (p.es. tramite rappresentazioni latenti generali) oppure utilizzare modelli pre-addestrati su domini ampi che necessitano di meno dati nuovi per adattarsi.
L’adozione di architetture come le reti neurali continue o i modelli a capacità espandibile (che possono aggiungere neuroni o componenti per apprendere nuove informazioni senza sovrascrivere le vecchie) è un campo di ricerca attivo per combattere la degenerazione dovuta a nuove conoscenze da integrare senza dimenticare le precedenti.
Approccio proattivo e “moving target”
In un’ottica di sicurezza offensiva, i ricercatori Biggio e Roli suggeriscono che la miglior difesa è rendere la vita difficile agli attaccanti adottando un approccio proattivo. Ciò significa anticipare le mosse degli avversari e non attendere di subire un attacco per reagire.
Tradotto nei nostri termini, un’organizzazione dovrebbe variare e aggiornare costantemente i propri modelli così che anche l’attaccante abbia a che fare con un “bersaglio mobile”. Un modello statico, una volta studiato, può essere aggirato sempre allo stesso modo; ma se il modello viene continuamente modificato, l’attaccante dovrà faticare molto di più per trovare nuovi punti deboli.
Questo concetto è alla base dell’apprendimento continuo (vedi sezione successiva) e delle cosiddette AI auto-rigeneranti. Ad esempio, un sistema di email security potrebbe re-addestrare il filtro anti-phishing ogni settimana con i nuovi attacchi osservati globalmente: ciò significa che le campagne di phishing efficaci una settimana potrebbero non funzionare più in quella successiva, perché il modello nel frattempo è cambiato avendo incorporato quegli esempi.
Questa continua evoluzione rende più complesso per l’attaccante effettuare test offline per eludere i modelli, in quanto il comportamento della difesa non è più fisso. Naturalmente, un approccio simile deve essere attentamente bilanciato perché, come già notato, l’apprendimento continuo introduce rischi di instabilità se non gestito con cautela. Tuttavia, mantenere il modello un passo avanti agli aggressori – ad esempio includendo proattivamente nei dati di training esempi di possibili nuovi attacchi prima che diventino diffusi – può prevenire exploit e garantire che l’IA non resti mai troppo indietro rispetto alla minaccia corrente.
In sintesi, prevenire l’AI degenerativa richiede una combinazione di tecnologie, processi e persone: bisogna monitorare, aggiornare e testare continuamente, implementando allo stesso tempo misure tecniche che rendano i modelli più robusti e meno facili da sfruttare durante il loro ciclo di vita.
Trend emergenti: AI auto-rigenerativa, continuous learning e monitoraggio automatico
Per far fronte al problema della degenerazione dei modelli, stanno emergendo nuovi approcci e paradigmi in ambito IA e sicurezza. Tra questi, vale la pena evidenziare:
- AI auto-rigenerativa: Con questo termine ci si riferisce a sistemi di IA capaci di adattarsi e “autoripararsi” in autonomia quando le loro performance iniziano a degradare. L’idea è quella di una sorta di self-healing AI, ovvero algoritmi che rilevano da soli sintomi di drift o errori e intraprendono azioni correttive senza intervento umano. Si tratta di un campo di ricerca avanzato ma con prime realizzazioni sperimentali. Ad esempio, nel 2023 è stato presentato un sistema chiamato H-LLM (per contesto medico-finanziario) che utilizza un grande modello linguistico per diagnosticare autonomamente le cause del degrado di un modello e raccomandare strategie di adattamento mirate. Questo self-healing system ha mostrato risultati promettenti, riducendo errori e falsi allarmi meglio di metodi tradizionali, segno che l’IA può essere progettata per apprendere a mantenersi “in salute”. In cybersecurity, possiamo immaginare un futuro in cui un modello di threat detection sia dotato di un modulo che, accorgendosi di un calo nell’accuratezza, autonomamente raccolga nuovi dati (ad esempio dagli ultimi incidenti) e ri-addestri una parte del modello, oppure affini la soglia decisionale, per riportare le performance al livello ottimale. Una IA auto-rigenerativa implicherebbe anche che il sistema tenga traccia delle proprie prestazioni nel tempo e riconosca pattern associati al proprio degrado, intervenendo prima che la situazione diventi critica. Sebbene sia una frontiera nuova, l’AI auto-riparante potrebbe diventare una componente chiave di sistemi di difesa cyber resilienti e a bassa necessità di intervento umano.
- Continuous learning e apprendimento continuo: Mentre tradizionalmente i modelli venivano addestrati offline e poi congelati in produzione, oggi si sta facendo strada l’apprendimento continuo (online) come pratica per mantenere i modelli allineati col tempo. Il continuous learning prevede che il modello incorpori costantemente nuovi dati durante l’operatività, aggiornando i propri pesi o creando nuove conoscenze senza attendere cicli di retraining isolati. In un certo senso, è l’opposto di avere un modello statico: il modello è in perenne addestramento (con le dovute cautele). Questo approccio, applicato alla cybersecurity, offre due vantaggi principali: affronta dinamicamente problemi come il model drift e predizioni errate grazie all’adattamento istantaneo; crea un “moving target” per gli attaccanti, come discusso sopra. Ad esempio, un modello di rilevamento fraudi finanziarie in apprendimento continuo potrebbe aggiornarsi ad ogni nuova transazione confermata come lecita o fraudolenta, modificando gradualmente i propri confini decisionali per seguire le nuove tattiche dei truffatori. Così facendo, l’attaccante troverà un sistema che cambia sotto i suoi piedi. Va però sottolineato che il continuous learning in produzione comporta rischi: permettere a dati potenzialmente non affidabili di aggiornare il modello può introdurre vulnerabilità (ad esempio, un aggressore potrebbe inondare il sistema di input manipolati per “insegnargli” comportamenti errati, fondendo continuous learning e poisoning). Per questo, linee guida come quelle del NCSC suggeriscono di valutare attentamente se e come implementare l’apprendimento continuo, e di monitorare attentamente gli aggiornamenti automatici per intercettare subito eventuali effetti negativi. In pratica, soluzioni di continuous learning per la sicurezza adottano spesso approcci ibridi, come learning under supervision (il modello impara continuamente ma le sue modifiche vengono approvate o filtrate da un processo di validazione) o shadow training (il modello si aggiorna in parallelo ma le decisioni in produzione passano ancora attraverso il modello stabile finché il “nuovo” modello non è validato). Nonostante queste complessità, l’impiego di continuous learning sta crescendo: l’obiettivo è avere modelli sempre freschi e adattati alle ultime minacce, riducendo al minimo le finestre di esposizione dovute a knowledge staleness.
- Monitoraggio automatico della deriva e MLOps avanzato: Parallelamente ai modelli, si stanno evolvendo gli strumenti per la loro gestione. Oggi si parla di AI AIOps o MLOps avanzato, indicando l’uso di intelligenza artificiale stessa e automazione nei processi operativi di machine learning. Per contrastare l’AI degenerativa, molte piattaforme stanno integrando funzionalità di drift detection e alerting automatico. Ad esempio, servizi cloud di ML offrono già il rilevamento di data drift sui dataset di produzione e notificano gli utenti quando la distribuzione cambia significativamente rispetto al training. In un contesto enterprise, si può impostare che al superamento di certe soglie (es. distanza statistica tra distribuzioni > X, o calo di accuracy stimato > Y) scatti un flusso automatico: raccolta di nuovi dati, ri-addestramento, validazione e deploy di un modello aggiornato. Questo rappresenta un’evoluzione verso la gestione autonoma dei modelli. Inoltre, nuove metriche e framework vengono proposti per monitorare non solo l’accuratezza ma anche aspetti come la calibrazione del modello nel tempo (importante in ambito sicurezza: un modello ben calibrato dà confidenza affidabile, mentre deriva di calibrazione potrebbe far sottostimare grossi rischi). Altri sviluppi interessanti includono l’uso di modelli ausiliari per sorvegliare i modelli primari: ad esempio, una rete di meta-learning potrebbe imparare a predire quando il modello principale sta per fallire, oppure un algoritmo potrebbe generare canary inputs periodici (input noti) per testare che la risposta del modello rimanga corretta nel tempo. In sostanza, l’industria si sta muovendo verso soluzioni di “modellizzazione della deriva” – trattare il drift come un altro fenomeno da rilevare con algoritmi, con tanto di report automatici. Unendo questi strumenti a pratiche DevSecOps, un responsabile di sicurezza può beneficiare di dashboard in tempo reale sullo stato di salute dei modelli IA: se un modello mostra segnali di degenerazione, il sistema lo segnala proattivamente e magari avvia procedure di correzione (o almeno fallback verso modelli di backup più semplici ma stabili, per tamponare nell’immediato). Questi approcci sposano la filosofia che “prevenire è meglio che curare”: piuttosto che subire passivamente il degrado di un modello, l’organizzazione mette in piedi un ecosistema che se ne accorge e reagisce autonomamente, riducendo al minimo l’impatto sull’operatività.
In definitiva, i trend emergenti mirano a rendere i modelli di AI più longevi, adattivi e affidabili nel tempo, riducendo l’intervento manuale necessario. Si passa da un paradigma statico, in cui l’AI era vulnerabile al cambiamento, a un paradigma dinamico in cui l’AI stessa è costruita per cambiare insieme al contesto. Per i professionisti della cybersecurity, abbracciare questi trend significa dotarsi di strumenti migliori per mantenere elevate le difese nel lungo periodo, assicurando che l’intelligenza artificiale rimanga un alleato efficace e non diventi essa stessa un punto debole.
Conclusioni
L’AI degenerativa è una sfida concreta per chi applica l’intelligenza artificiale in ambito cybersecurity. Abbiamo visto come data drift, concept drift, attacchi adversariali, contaminazione dei dataset e mancanza di aggiornamento possano tutti contribuire al degrado progressivo delle prestazioni di un modello IA. Per i professionisti della sicurezza informatica, ciò significa che un sistema di difesa basato su AI, se non curato, col tempo può perdere la sua efficacia e lasciare scoperto il fianco alle minacce. I rischi vanno dall’aumento di falsi negativi (minacce non rilevate) a falsi positivi (allarmi inutili), passando per possibili exploit diretti da parte di aggressori che manipolano i modelli a loro vantaggio.
La buona notizia è che esistono strategie e strumenti per contrastare questo degrado. Dalla manutenzione continua dei modelli (monitoraggio, retraining, validazione umana) all’implementazione di tecniche di robustezza contro attacchi e drift, le organizzazioni possono adottare un approccio proattivo. È fondamentale trattare i modelli di AI come entità “vive” all’interno dell’ecosistema di sicurezza: essi richiedono attenzioni costanti, un po’ come si fa patch management per il software, si deve fare model management per l’IA. In questo senso, frameworks istituzionali come il NIST AI Risk Management Framework incoraggiano proprio a integrare considerazioni su drift e aggiornamento nel ciclo di vita dei sistemi AI.
Guardando al futuro, l’orizzonte appare ancora più interessante: lo sviluppo di AI auto-rigenerativa e di pratiche di continuous learning potrà fornire difese sempre allineate all’evoluzione delle minacce, riducendo il ritardo tra l’emergere di una nuova tecnica di attacco e la capacità del modello di fronteggiarla. Tuttavia, servirà equilibrio nel farlo in sicurezza, evitando nuovi rischi. Parallelamente, l’adozione di sistemi automatici di monitoraggio del drift e di MLOps maturi aiuterà ad automatizzare le noiose (ma vitali) attività di controllo della “salute” dei modelli.
In conclusione, per i professionisti della cybersecurity, la lezione chiave è che l’intelligenza artificiale non è mai “deploy and forget”. Bisogna mettere in conto fin dall’inizio il rischio di degenerazione e predisporre contromisure. Un modello di machine learning efficace oggi non garantisce di esserlo domani: solo attraverso un’attenta gestione nel tempo possiamo assicurare che l’AI rimanga un valido alleato nella difesa informatica, anziché trasformarsi in un’inaspettata fonte di vulnerabilità. In un settore dove attaccanti e difensori sono in continua gara di adattamento, anche l’IA deve saper evolvere per sopravvivere.
Fonti:
Apruzzese et al. (2022) – The Role of Machine Learning in Cybersecurity.
Jordaney et al. (2017) – Transcend: Detecting Concept Drift in Malware Classification Models.
NIST – AI Risk Management Framework 1.0, Appendix B (2023).
CLTC, UC Berkeley – Adversarial Machine Learning (2019).
ENISA – Securing Machine Learning Algorithms (Report 2021).
NCSC (UK) – Machine Learning Security Principles (Guidance)
Biggio & Roli (2018) – Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning.
