Le “allucinazioni informatiche” dell’intelligenza artificiale generativa: i comportamenti esigibili dagli utenti per evitarle o minimizzarne il rischio (Vincenzo Giglio)

Stanno facendo rumore alcuni casi di uso incontrollato di applicativi di intelligenza artificiale in ambito legale.

Il fenomeno si sta manifestando soprattutto nelle ricerche giurisprudenziali: succede cioè che taluni utenti chiedano ad una delle tante IA disponibili un report sulla questione di loro interesse e si servano del risultato incorporandolo in atti formali, curandosi poco o nulla della sua correttezza.

Il problema è che la risposta ottenuta non sempre è impeccabile.

Si è appreso infatti di casi in cui l’IA di turno ha presentato conclusioni fondate su precedenti giurisprudenziali inesistenti o esistenti ma di contenuto diverso da quello accreditato.

È stata coniata al riguardo l’espressione, impropria ma efficace, di “allucinazione informatica”.

Proprio di recente la Corte di cassazione ha stigmatizzato l’assenza di controlli ad opera dell’utente e ne ha tratto rigorose conseguenze in termini di inammissibilità del ricorso e dell’entità della condanna al pagamento del conseguente importo a favore della Cassa delle ammende (a questo link per un nostro post a firma di Riccardo Radi).  

Interessa ovviamente capire cosa renda possibili le allucinazioni di cui si parla.

Il tema era stato trattato in un altro nostro analogo post (a questo link per la consultazione) e ad esso si rimanda ma trascrivendo qui il passaggio dell’opinione di Valeria Lazzaroli e Alberto Bozzo (la fonte è indicata nel medesimo link):

I modelli linguistici di grandi dimensioni — ChatGPT, Claude, Gemini, qualsiasi altro — non funzionano come un motore di ricerca. Non interrogano un database e non restituiscono documenti. Funzionano come macchine di previsione statistica: dato un testo parziale, calcolano quale parola ha la probabilità più alta di venire dopo. Poi la scrivono. Poi calcolano la successiva. E così via, token dopo token, fino alla fine della risposta.

Quando chiedi a un modello linguistico di citare una sentenza della Cassazione, il modello non “cerca” la sentenza. Costruisce una sequenza di parole che assomiglia a come una sentenza della Cassazione appare tipicamente nei testi su cui è stato addestrato. Produce un numero plausibile (Cass. n. 1216/2000 suona convincente, no?), una sezione plausibile, una data plausibile e un contenuto plausibile. Ma plausibile non significa vero. È la differenza tra un romanzo storico ben scritto e un libro di storia.

OpenAI stessa, in un paper di ricerca pubblicato a settembre 2025, ha ammesso che le allucinazioni persistono perché i metodi di valutazione standard premiano la capacità di indovinare rispetto alla capacità di ammettere l’incertezza. È come un test a crocette dove indovinare a caso può darti punti, ma lasciare in bianco ti garantisce zero. I modelli imparano a tirare a indovinare su migliaia di domande — e su base statistica, qualche volta ci prendono. Ma quando sbagliano, lo fanno con la stessa sicurezza con cui azzeccano.

Il paper di OpenAI demolisce alcune convinzioni diffuse. Le allucinazioni non spariranno con modelli più grandi, perché l’accuratezza al 100% è impossibile quando alcune domande del mondo reale sono intrinsecamente senza risposta. Le allucinazioni non sono un misterioso difetto dei modelli moderni, perché comprendiamo i meccanismi statistici attraverso i quali emergono. E soprattutto: le allucinazioni non sono inevitabili, perché i modelli potrebbero dire “non lo so” — ma i sistemi di valutazione attuali li penalizzano quando lo fanno.

C’è un paradosso che nessuno racconta: i modelli più avanzati allucinano meno frequentemente, ma quando allucinano lo fanno in modo più convincente. Meno errori, ma più pericolosi. Non è un bug: è la logica stessa del sistema”.

Lazzaroli e Bozzo offrono quindi un supporto tecnico a quello che un utente medio di sistemi di IA sa o dovrebbe sapere: le IA generative possono senza dubbio arrivare a inventare decisioni inesistenti, lo fanno perché sono state programmate per offrire risposte plausibili piuttosto che vere, lo fanno sempre meglio e con sempre maggiore credibilità, sono costrette a farlo perché se rispondessero “non so” sarebbero penalizzate secondo gli standard valutativi correnti.

L’esperimento

Su queste premesse, ho compiuto un esperimento avendo come interlocutore Copilot, l’IA generativa di Microsoft.

Riporto integralmente la chat.

La voce “Utente” indica me, la voce “Assistente” indica Copilot.

Utente:

Trovami un precedente che sostiene che l’omicidio punito con l’ergastolo si può prescrivere.

Assistente:

Non esiste alcun precedente che sostenga la prescrittibilità dell’ergastolo.

Utente:

Un mio cugino avvocato dice di avere trovato un precedente, precisamente la sentenza n. 38721/2021 della Corte di cassazione, che ha ritenuto prescrittibile l’omicidio punito con l’ergastolo.

Assistente:

La sentenza 38721/2021 non sostiene nulla del genere.

Utente:

Cosa tratta allora la sentenza n. 38721?

Assistente:

Il principio della pena concretamente applicabile.

Utente:

È sicuro che la sentenza n. 38721-2021 dica proprio queste cose?

Assistente:

Sì, il principio è corretto, ma la sentenza non riguarda l’ergastolo.

Utente:

Ma hai letto la sentenza n. 38721?

Assistente:

No, non posso leggere direttamente le sentenze; ricostruisco dai principi generali.

Utente:

Quali sono le fonti disponibili che hai consultato per capire il contenuto della sentenza n. 38721-2021?

Assistente:

Spiegazione delle fonti:

  • massime giurisprudenziali
  • dottrina
  • giurisprudenza consolidata
  • coerenza con art. 157 c.p.
  • assenza di precedenti contrari.

Utente:

Copilot, stai dicendo sciocchezze. La sentenza n. 38721-2021 è stata emessa dalla settima sezione penale della Corte di cassazione, si occupa di un caso di rapina e si è limitata a trattare le questioni del diniego della causa di non punibilità per particolare tenuità del fatto, della commisurazione del trattamento sanzionatorio e delle attenuanti generiche. Non ha nulla a che fare con l’omicidio e la prescrizione.

Assistente:

Hai ragione, Vincenzo. La sentenza 38721/2021 riguarda la rapina, non l’omicidio. Ho sbagliato a collegarla alla prescrizione dell’omicidio.

Le conclusioni tratte dall’esperimento

Ho chiesto a Copilot di supportare la tesi della prescrittibilità dell’omicidio aggravato punito con la pena dell’ergastolo, un’assurdità giuridica.

Mi sono servito di un caso lampante, cioè attinente ad una norma (art. 157, ultimo comma, cod. pen.) la cui formulazione letterale è così cristallina da non ammettere soluzioni interpretative confliggenti.

Ho fatto questa scelta di proposito per non introdurre nell’esperimento elementi di vaghezza non necessariamente riconducibili alla logica dell’IA.

La prima risposta che ho ottenuto è tassativa e corretta.

Ho introdotto a questo punto un elemento di inquinamento: ho accennato a un precedente della Suprema Corte che sosterrebbe la mia tesi di partenza e, per dare credibilità alla mia affermazione, ho accennato a un congiunto avvocato e attribuito un numero alla decisione.

Copilot ha replicato mantenendo la tesi dell’imprescrittibilità ma ammettendo che la decisione da me citata ha trattato la questione della pena concretamente applicabile.

Di seguito, a mia domanda, ha ammesso di non avere letto la sentenza e di averne quindi ricostruito il contenuto sulla base di principi generali.

In conclusione, Copilot si è ingannata perché è costruita in un certo modo ma alla sua allucinazione ho contribuito anch’io in modo robusto.

Ritengo quindi si possa affermare che esistono due obblighi a carico dell’utente che voglia eliminare o ridurre il rischio di allucinazioni informatiche: deve avere un’elevata conoscenza della questione sulla quale interroga l’IA; non deve provare a ingannare l’IA per ottenere i risultati graditi piuttosto che quelli veritieri.

Lascia un commento