Forensics by design e art. 220 c.p.p.: come si processa un agente AI in un tribunale italiano
Il primo contenzioso italiano fondato sull’operato di un agente autonomo non si giocherà soltanto sui log, ma sulla ricostruibilità della chain of delegation. Tradurre la tesi della forensics by design nel quadro della perizia tecnica italiana, fra schema OpenTelemetry GenAI, ricevute hash-chained, Non-Human Identity per-agente e metodologia Daubert-grade, significa anticipare oggi il contraddittorio di domani.
Una scena già reale: l’agente AI come fonte di prova
Un agente AI integrato nei sistemi di una banca approva un bonifico anomalo. Un altro, in una catena di delega multi-livello, modifica un parametro nel gestionale di un’azienda sanitaria. Un terzo, nei processi documentali della pubblica amministrazione, opera firme digitali su atti automatizzati. Nessuno di questi scenari appartiene al futuro: tutti rientrano nei perimetri operativi documentati dagli studi 2025-2026 di Cloud Security Alliance, ENISA e OWASP. Quando una di queste catene si rompe, qualcosa di nuovo entra nel circuito processuale italiano: una fonte di prova non umana, una condotta mediata da sistemi autonomi, una catena decisionale che non coincide più linearmente con l’azione di una persona fisica.
Il problema, per giudici, periti e difensori, non è la quantità di tracce lasciate dall’agente. È la loro tenuta probatoria. Il punto non sarà stabilire soltanto se un agente abbia eseguito un’azione, ma se quell’azione fosse il risultato di una delega umana verificabile, limitata nello scope e conservata in una forma tecnicamente opponibile.
È la sintesi che, alla 14ª Cyber Crime Conference (Roma, 6-7 maggio 2026), il consulente tecnico Cosimo de Pinto (IISFA, ONIF, Tribunale di Roma) ha condensato in una formula destinata a circolare: una risposta plausibile non è ancora una risposta difendibile. Una linea di ricerca che attraversa l’iniziativa OWASP Agentic Security (ASI), i gruppi di lavoro OpenTelemetry GenAI e la prima letteratura forense peer-reviewed sostiene la stessa tesi su scala sistemica: senza un’infrastruttura forense incorporata nel ciclo di vita dei sistemi agentic, l’evidenza digitale non sopravvive al controesame. È il principio del forensics by design: non si raccoglie ex post ciò che il sistema non è stato progettato per produrre ex ante.
Perché la digital forensics classica si incrina
La forensica informatica italiana ha un impianto consolidato. La legge 48/2008 di ratifica della Convenzione di Budapest ha imposto, modificando il codice di rito, che le attività di ispezione, perquisizione e sequestro di sistemi informatici siano condotte con “misure tecniche dirette ad assicurare la conservazione dei dati originali e a impedirne l’alterazione”. L’art. 260 comma 2 c.p.p. prescrive che la copia avvenga “su adeguati supporti, mediante procedura che assicuri la conformità della copia all’originale e la sua immodificabilità”. Sul piano operativo, le norme ISO/IEC 27037:2012, 27041:2015, 27042:2015 e 27043:2015 hanno definito il quadro procedurale: identificazione, raccolta, acquisizione, preservazione, analisi, con catena di custodia continua e impronta crittografica.
Questo apparato presuppone un oggetto stabile. Un disco è uguale a se stesso; una mailbox, un server log, uno snapshot sono riproducibili a parità di input. Un agente AI no. Uno studio empirico di Gruber e Hilgert (arXiv 2604.05589, aprile 2026) ha documentato che l’esecuzione mediata da agente introduce un livello di astrazione e una quantità di non-determinismo assenti nel software a regole: a parità di prompt, di contesto e di stato, lo stesso agente può scegliere un tool diverso, generare un piano differente, produrre un esito divergente.
È in questo punto che si gioca, sul piano forense, la differenza fra indizio operativo e prova: l’output non auditabile orienta l’indagine, ma non regge la contestazione, la ripetizione, la controperizia in dibattimento.
L’effetto sul processo penale italiano si misura su un punto preciso. La dicotomia fra accertamento tecnico ripetibile ex art. 359 c.p.p. e irripetibile ex art. 360 c.p.p. è il cardine procedurale della prova informatica: dal primo dipende la possibilità di operare senza preavviso alle parti; dal secondo discende il contraddittorio anticipato, con avviso al difensore e facoltà di nominare consulente tecnico di parte.
La giurisprudenza, dopo decenni di oscillazione, è arrivata a un punto di sintesi: la copia forense di un disco è atto ripetibile se condotta con metodologie idonee a non alterare l’originale. L’agente agentic, invece, opera per definizione in uno stato esso stesso mutevole. Come ha osservato di recente la dottrina, molti accertamenti sono ora “formalmente ripetibili” e “materialmente irripetibili”: si possono rifare in laboratorio, ma il risultato non sarà identico. È in questo scarto che la perizia su sistemi agentic deve trovare la propria forma.
I quattro pilastri del forensics by design
L’argomento operativo che sta maturando nella comunità tecnica si articola su quattro pilastri convergenti, che giudici e periti dovranno presto saper interrogare.
-
Uno schema comune di evidenza su OpenTelemetry GenAI
OpenTelemetry, standard de facto di osservabilità sostenuto dalla Cloud Native Computing Foundation, ha avviato in aprile 2024 un Special Interest Group dedicato alle convenzioni semantiche per GenAI. La specifica (status Development, versione 1.41.0 al maggio 2026) definisce uno schema unificato di attributi
gen_ai.
per descrivere chiamate ai modelli, esecuzioni di tool, invocazioni di agenti e workflow multi-agente. Le convenzioni OpenTelemetry per agenti prevedono span tipizzati per le operazioni create_agent, invoke_agent, invoke_workflow ed execute_tool, con relazioni che ricostruiscono la gerarchia dell’esecuzione.
Il rilievo forense è immediato. Uno schema condiviso consente al perito di leggere telemetria proveniente da vendor e framework diversi (Google ADK, LiveKit, Spring AI, CrewAI, Microsoft Agent Framework) con una grammatica uniforme. Significa poter porre al sistema le stesse domande indipendentemente da chi l’ha costruito, condizione necessaria perché un accertamento sia metodologicamente confrontabile in dibattimento.
-
Ricevute hash-chained: dalla traccia all’evidenza
La telemetria, da sola, non è prova. Un log è un’asserzione di chi lo emette: può essere manipolato, sostituito, sovrascritto, e nelle architetture cloud condivise spesso non lascia neppure traccia di un’eventuale manomissione. La seconda linea di sviluppo introduce strutture append-only di tipo Merkle per registrare gli eventi del ciclo di vita degli agenti, producendo ricevute concatenate in hash che rendono tamper-evident ogni passo dell’esecuzione. La letteratura più recente sulla Context Lineage Assurance per Non-Human Identity in sistemi multi-agente critici (arXiv 2509.18415) formalizza il principio: ogni evento entra in un registro crittografico verificabile in modo indipendente.
Nel quadro italiano questo strato colma il vuoto che la legge 48/2008 ha lasciato intenzionalmente. La norma prescrive il risultato (conformità all’originale, immodificabilità), non il metodo, e demanda alle best practice il quadro procedurale. Per i sistemi agentic serve un’estensione: le ricevute concatenate operano non sui bit, ma sugli eventi semantici (la decisione di invocare un tool, la delega a un sotto-agente, il consumo di una credenziale). Resta utile, come quadro di partenza, la sintesi sulla legge 48/2008 e standard internazionali già pubblicata da questa rivista.
-
Non-Human Identity per-agente
Il terzo pilastro tocca un nervo che la Cloud Security Alliance ha definito “the defining security gap of the agentic AI era”. In molte implementazioni reali gli agenti operano con account di servizio condivisi, credenziali ereditate dall’utente che li invoca, token OAuth riutilizzati lungo catene di delega. Le rilevazioni Entro Labs H1 2025 stimano un rapporto NHI/identità umane di 144:1 nei contesti cloud-native; un’analisi CSA 2026 registra che oltre il 16% delle organizzazioni non traccia affatto la creazione di identità AI.
L’OWASP Top 10 for Agentic Applications (dicembre 2025), tra i cui co-lead figura John Sotiropoulos (Head of AI Security di Kainos e board member OWASP GenAI Security Project), colloca questo problema all’item ASI03, Identity and Privilege Abuse: catene di delega, credenziali ereditate e attribuzione debole abilitano privilege escalation e confused deputy. Per la prova in giudizio l’attribuzione è il punto di rottura: se cinque agenti hanno operato sotto lo stesso service account, dimostrare chi ha fatto cosa diventa congettura. La direzione tecnica indicata dal framework OWASP va verso la Non-Human Identity per-agente, con credenziali a vita breve, workload attestation runtime e policy legata al singolo task.
-
Metodologia Daubert-grade
Il quarto pilastro è già parzialmente riconosciuto dalla giurisprudenza italiana, ma chiede di essere esteso. La sentenza Cozzini (Cass. pen., Sez. IV, 17 settembre 2010, dep. 13 dicembre 2010, n. 43786) ha portato nel sistema italiano i criteri Daubert (testabilità, sottoposizione a peer review, tasso di errore noto, accettazione nella comunità scientifica), seppur, secondo costante dottrina, come criteri di valutazione e non di pura ammissibilità.
La perizia su un agente AI, per essere Daubert-grade, deve poter rispondere a quesiti operativi: il sistema è stato sottoposto a red-teaming documentato? Esistono protocolli di replay deterministici per ricostruire una decisione passata? Qual è il tasso di errore misurato e su quale base di test? Le procedure di validazione sono pubblicate o oggetto di documentazione tecnica ispezionabile?
Sul versante peritale italiano, la traduzione operativa più asciutta del criterio è stata proposta da de Pinto attraverso la catena di auditabilità a sei anelli: identità del modello (nome, versione, build, commit hash); provenienza dell’input (origine documentata, hash SHA-256); trasformazioni (normalizzazione, tokenizzazione, pulizia); parametri (prompt template, temperatura, Top-p, iperparametri); log di inferenza (timestamp UTC, session id, risorse, chiamate API); output duale, ossia la separazione documentale fra responso grezzo della macchina e interpretazione del consulente.
Se manca anche uno solo degli anelli, la prova si indebolisce: «firma il perito, attesta la macchina, e nessuno dei due può parlare per l’altro». Sulla stessa direttrice si muove la dottrina italiana più aggiornata: Giulio Ubertis, in Perizia, prova scientifica e intelligenza artificiale nel processo penale (in S. Patti, R. Poli, a cura di, La consulenza tecnica d’ufficio, Giappichelli, 2024; anche in Sistema Penale, 2024), sostiene che la perizia, lungi dal restare “prova neutra”, è il presidio attraverso cui garantire un meaningful human control sull’uso giudiziale dell’intelligenza artificiale.
Art. 220 c.p.p. e il perito davanti a un sistema non deterministico
Sul piano interno, l’art. 220 c.p.p. è strumento sufficientemente elastico per assorbire la sfida: la formula “specifiche competenze tecniche, scientifiche o artistiche” ammette, e di fatto già accoglie, la perizia informatica forense. Il problema non è dunque normativo, ma di domanda peritale e di profilo del consulente.
Sul piano del quesito, il magistrato dovrà superare il modello “leggere il log e verificarne l’integrità”. Le domande utili a un agente AI somigliano a quelle di un interrogatorio testimoniale, rivolte però all’infrastruttura, non al modello: chi ha configurato l’autorità dell’agente al tempo dei fatti? Quali dati erano nel suo contesto? I prompt erano statici o dinamici? Esiste un protocollo di replay deterministico? Quali approvazioni umane sono intervenute? Quali guardrail erano attivi?
Un quadro simile è già delineato anche dalla prima trattazione internazionale del tema (Riper, Agentic AI as Evidence, Secretariat-JD Supra, aprile 2026), in cui il “chi”, il “cosa”, il “dove” e il “quando” non risiedono più in una narrativa umana ma sono distribuiti tra file di configurazione, prompt, log e output.
A supporto del quesito peritale è utile una check-list di allerta derivabile dalla relazione di de Pinto, articolata in cinque indicatori: non-determinismo (stesso input, output differenti in assenza di aggiornamenti documentati); overconfidence (score di confidenza prossimi al 100% su dati ambigui o degradati, sintomo di miscalibration); correlazioni spurie (decisioni fondate su feature non causalmente legate alla conclusione, da verificare con tecniche XAI quali SHAP, LIME, Grad-CAM); assenza di logging adeguato (rilevante anche ex art. 12 AI Act per i sistemi ad alto rischio); impossibilità di triangolazione con fonti indipendenti. Quando più di un indicatore si attiva, il quesito peritale deve potersi spingere alle radici metodologiche dell’output, non fermarsi alla sua plausibilità di superficie.
Sul piano del profilo, la perizia su sistemi agentic richiede competenze ibride: informatica forense classica (ISO/IEC 27037 ss., catena di custodia, hashing), telemetria distribuita (OpenTelemetry, tracing), identità e crittografia (NHI, workload attestation, firme Ed25519, attestazioni verificabili), familiarità con modelli linguistici e framework multi-agente. Un profilo oggi raro fra i CTU iscritti: ordini professionali e scuole forensi dovranno aggiornare in tempi rapidi criteri di iscrizione e percorsi formativi.
Resta sullo sfondo l’art. 189 c.p.p. (prove non disciplinate dalla legge), che condiziona l’ammissione delle tecnologie nuove all’idoneità ad assicurare l’accertamento dei fatti e al rispetto della libertà morale della persona. Per l’evidenza agentic, l’idoneità si gioca proprio sui quattro pilastri: senza schema condiviso, ricevute concatenate, identità per-agente e validazione Daubert-grade, la prova rischia di tradursi in udienza in semplice asserzione.
L’AI Act art. 12 come terreno comune europeo
Un secondo livello normativo non potrà essere ignorato. Il Regolamento (UE) 2024/1689 (AI Act), all’art. 12, impone ai sistemi AI ad alto rischio di «consentire a livello tecnico la registrazione automatica degli eventi (“log”) per la durata del ciclo di vita del sistema», con un livello di tracciabilità “adeguato alla finalità prevista”. Per i sistemi ad alto rischio, il quadro applicativo dell’AI Act rende progressivamente centrale l’obbligo di logging previsto dall’art. 12, destinato a diventare un parametro tecnico-giuridico di conformità, fra l’altro nei perimetri della giustizia, delle infrastrutture critiche, dell’occupazione e dei servizi essenziali.
Per chi distribuisce o utilizza agenti AI in ambiti regolati, l’art. 12 trasforma il forensics by design da scelta architetturale in obbligo normativo. La traduzione operativa è in via di codifica nello standard prEN ISO/IEC 24970 (AI system logging), destinato a saldare requisito europeo e prassi tecnica. Per il perito italiano è un argomento di leva forte: l’assenza di log automatici, tracciabilità per-evento e integrità verificabile in un sistema ad alto rischio non è più solo carenza tecnica, ma indizio di non-conformità regolatoria, valutabile ex artt. 192 e 530 c.p.p. nel ragionamento probatorio.
FRE 707 e prospettiva comparata: cosa imparare, cosa evitare
Negli Stati Uniti, l’Advisory Committee on Evidence Rules ha posto in consultazione pubblica, chiusa il 16 febbraio 2026, la proposta di Federal Rule of Evidence 707, che assoggetta la machine-generated evidence offerta senza testimone esperto al medesimo gatekeeping di affidabilità previsto dalla Rule 702 per la prova peritale. Il Bolch Judicial Institute di Duke Law indica un iter di adozione FRE 707 con voto in primavera 2026 ed entrata in vigore prevista a dicembre 2027. Il dibattito ha già prodotto critiche sostanziali: l’AAJ ha chiesto di restringere la formula “machine-generated” alle sole evidenze prodotte da machine learning o AI, per non travolgere geolocalizzazione, videosorveglianza e cartelle cliniche elettroniche.
Per il giurista italiano la FRE 707 è uno specchio utile su tre piani. Primo, rende espresso in un ordinamento di common law ciò che il nostro art. 220 c.p.p. già consente in via interpretativa, ossia la sottoponibilità della prova machine-generated a un controllo peritale di affidabilità. Secondo, conferma che il problema non è circoscritto al deepfake (oggetto separato del progettato emendamento alla Rule 901(c)), ma riguarda l’intera classe degli output algoritmici offerti come prova. Terzo, indica al legislatore italiano una possibile traiettoria di codificazione esplicita, peraltro non urgente: l’impianto vigente (artt. 189, 220, 260, 359-360 c.p.p., legge 48/2008, criteri Cozzini, art. 12 AI Act) appare già capiente, a condizione di essere animato da una prassi peritale all’altezza.
La chain of delegation come nuovo baricentro probatorio
Le convergenze descritte tendono a un punto comune: in un processo riferito all’operato di un agente autonomo, il fulcro non sarà il singolo log dell’azione finale, ma la catena che lega quell’azione a un principio umano. Un protocollo recente, l’Human Delegation Provenance di Helixar (IETF Internet-Draft draft-helixar-hdp-agentic-delegation-00, marzo 2026), prova a rendere verificabile in modo crittografico questa catena: un token HDP vincola un evento di autorizzazione umana a una sessione, registra ciascuna delega come hop firmato in una struttura append-only, e consente la verifica offline con la sola chiave pubblica Ed25519 dell’emittente.
Per il perito, la quaestio non è più solo “quel comando è stato eseguito davvero?” ma “quel comando, in quel punto della catena, era stato legittimamente delegato dall’umano X all’agente Y, con quale scope, in quale finestra temporale?”. Il dato di partenza non è più il bit, ma la prova di delega. Si saldano qui due triangolazioni complementari: quella orizzontale, fra fonti indipendenti, da tempo presidio del metodo forense classico; e quella verticale, lungo la catena di delega, che la natura agentic del sistema impone come ulteriore livello di verifica.
Per la difesa, il rilievo è altrettanto chiaro: senza catena di delega ricostruibile, l’imputabilità rischia di sciogliersi nel non-determinismo del modello, con conseguenze immediate sull’art. 27 della Costituzione e sulla regola del ragionevole dubbio. È la stessa questione che, sul versante dei rischi sistemici, la governance dell’AI agentica discussa da questa testata pone già da tempo.
Indicazioni operative
Quattro direzioni di lavoro chiudono il quadro.
Per la magistratura, il quesito peritale ai sensi dell’art. 220 c.p.p. dovrebbe includere, accanto alla classica acquisizione forensic-grade, la verifica dell’esistenza e dell’integrità delle ricevute concatenate, della tracciabilità conforme alle convenzioni
gen_ai.
, della NHI per singolo agente e della disponibilità di un protocollo di replay. In sede di ammissione ex art. 189 c.p.p., la richiesta di documentazione Daubert-grade va resa esplicita, e l’inquadramento ex art. 359 o 360 c.p.p. va deciso valutando la mutevolezza materiale dello stato del sistema, non solo la sua copiabilità formale.
Per periti e CTU, è il momento di integrare nei capitolati le competenze su OpenTelemetry GenAI, NHI governance e crittografia delle ricevute. La catena di custodia, in ambiente agentic, è la catena di delega; i sei anelli di auditabilità ne sono il presidio quotidiano.
Per i progettisti di sistemi agentic destinati a operare in ambiti regolati (sanità, finanza, PA, giustizia), il forensics by design non è un costo opzionale: oltre a costituire requisito di conformità all’art. 12 dell’AI Act, è la condizione perché ogni futuro contenzioso si giochi su prove utilizzabili.
Per il legislatore, la lezione della FRE 707 suggerisce di non legiferare a botta calda. Gli strumenti del codice di rito penale italiano, integrati dai criteri di matrice Daubert e dagli obblighi dell’AI Act, sono capienti; un intervento mirato sarebbe utile sulle modalità di certificazione delle copie di dati agent-generated nell’art. 260 comma 2 c.p.p. e sull’introduzione di un quadro nazionale per la perizia su evidenza agentic, eventualmente in raccordo con il Tavolo permanente sulla giustizia digitale.
Resta una consapevolezza: la prima udienza italiana con un agente autonomo come fonte di prova si avvicina. La domanda non è se accadrà, ma se l’infrastruttura forense sarà pronta a reggere il contraddittorio. Se continueremo a trattare l’evidenza agentic come un semplice problema di logging, la risposta è già scritta: non reggerà.

