Lo sviluppo dell’intelligenza artificiale ha rivoluzionato il nostro modo di interagire con essa: oggi possiamo dialogare in linguaggio naturale con modelli generalisti come GPT o Claude, senza possedere competenze avanzate in programmazione o raccolta dati. Questa democratizzazione dell’accesso, però, convive con una forte opacità: i modelli restano spesso “scatole nere”, difficili da comprendere e da controllare, soprattutto quando generano errori o comportamenti inattesi, esponendo l'utente a numerose problematiche (es., il cosiddetto "jailbreaking" dei modelli). Negli ultimi anni si è affermata l’idea di mechanistic interpretability, ovvero lo studio delle strutture interne dei modelli per ricostruire i principi di funzionamento delle loro componenti. Esso permette di capire i “meccanismi interni” nascosti che generano le risposte, e quindi avere nuovi strumenti per renderle più sicure e controllabili.