Le IA generative possono inventare sentenze inesistenti? La decisione del Tribunale di Siracusa, le opinioni degli esperti e le risposte di Copilot e di Gemini (Vincenzo Giglio)

Premessa

Sta tenendo banco in questi giorni il caso delle “sentenze fantasma”, vale a dire l’utilizzo in giudizio di precedenti giurisprudenziali inesistenti.

Lo spiacevole episodio si è verificato in una controversia di natura contrattuale dinanzi la seconda sezione civile del Tribunale di Siracusa, il quale si è pronunciato al riguardo con la sentenza n. 338/2026 depositata il 20 febbraio 2026, ampiamente diffusa e commentata dall’editoria giuridica specializzata.

La motivazione della sentenza

Riporto adesso di seguito e tra virgolette (i neretti sono miei) la parte della motivazione che consente di comprendere gli esatti termini della vicenda e la considerazione che ne ha avuto il tribunale siciliano.

Il Tribunale ritiene che la parte attrice abbia svolto le proprie difese con colpa grave, se non con mala fede.

[Emerge] un profilo di particolare gravità. Nel tentativo di contrastare le eccezioni sollevate dal convenuto, l’attrice ha citato, alle pagine 1 e 2 della propria memoria ex art. 171-ter, n. 1, c.p.c., quattro precedenti giurisprudenziali (Cass. n. 1216/2000, Cass. n. 8379/2006, Cass. n. 14795/2003 e Cass. n. 4553/2004), riportandone tra virgolette taluni passaggi asseritamente testuali, che di seguito si riportano fedelmente: “2. fa all’uopo presente che la responsabilità ex art. 38 c.c. è personale, solidale, diretta, di natura contrattuale e non equiparabile a quella del fideiussore, né sotto il profilo funzionale né sotto quello giuridico. Non si applica, quindi, l’art. 1957 c.c.: “La responsabilità di chi ha agito in nome e per conto di un’associazione non riconosciuta non è assimilabile a quella del fideiussore, bensì è diretta e solidale, e quindi non è soggetta al termine di decadenza previsto dall’ art. 1957 c.c.” (Cass. civ., sez. III, 4 febbraio 2000, n. 1216); “L’art. 38 c.c. configura una responsabilità solidale e primaria degli amministratori, del tutto distinta e non accessoria come quella del fideiussore.” (Cass. civ., sez. III, 11 aprile 2006, n. 8379). 3. fa altresì presente che ex art.38 c.c. ne consegue un caso di obbligazione solidale ex art. 1292 c.c., sicché il creditore può agire contro uno solo dei coobbligati; non sussiste alcuna necessità di chiamare in causa tutti i responsabili o anche l’associazione; non vi è litisconsorzio necessario, né sostanziale né processuale. La giurisprudenza è chiara sul punto: “La responsabilità prevista dall’ art. 38 c.c. è solidale e non sussidiaria, sicché il creditore può agire contro i soggetti che hanno agito in nome e per conto dell’associazione anche senza chiamare in causa l’associazione stessa. Non sussiste litisconsorzio necessario.” (Cass. civ., sez. I, 3 ottobre 2003, n. 14795); “La solidarietà prevista dall’art. 38 c.c. non impone al creditore l’onere di convenire in giudizio anche l’associazione: si tratta di coobbligati solidali, rispetto ai quali opera il principio della libera scelta del creditore.” (Cass. civ., sez. III, 5 marzo 2004, n. 4553)”.

Dalla verifica compiuta dal Tribunale mediante consultazione del CED della Corte di Cassazione, e confermata dalla documentazione prodotta dal convenuto, è emerso che nessuna delle suddette sentenze contiene i passaggi virgolettati. Le pronunce nn. 1216/2000 e 8379/2006, invocate a sostegno della tesi dell’inapplicabilità dell’art. 1957 c.c. alla responsabilità ex art. 38 c.c., non recano i virgolettati citati e, nella loro formulazione autentica, trattano materie estranee alla questione; le sentenze nn. 14795/2003 e 4553/2004, richiamate sul diverso tema del litisconsorzio, versano nella medesima situazione. In tutti e quattro i casi i passaggi tra virgolette non trovano riscontro in alcuna pronuncia esistente.

Ai fini della valutazione della suddetta condotta processuale, il Tribunale ha considerato tutte le ipotesi esplicative astrattamente configurabili, pervenendo alla conclusione che una sola di esse sia razionalmente sostenibile.

Deve anzitutto escludersi un malfunzionamento delle banche dati giuridiche professionali: tali strumenti indicizzano provvedimenti autentici e non generano testo, sicché non possono produrre precedenti con numeri, argomenti e virgolettati integralmente inesistenti. A conferma di ciò, il Tribunale ha provveduto a verificare i precedenti citati dall’attrice sulle banche dati giuridiche in uso alla magistratura italiana: le sentenze richiamate o non risultano presenti, o risultano presenti ma con contenuto del tutto difforme dai passaggi virgolettati. Tale verifica corrobora ulteriormente la conclusione che l’inconveniente non possa essere ricondotto a un malfunzionamento o a un’indicizzazione scorretta degli strumenti di ricerca giuridica.

Deve parimenti escludersi un mero errore mnemonico o di trascrizione: non si tratta di un numero errato o di una sezione male attribuita, bensì di massime costruite ex novo, prive di qualsiasi corrispondenza con le pronunce richiamate.

Deve escludersi, infine, l’ipotesi dell’invenzione deliberata: un professionista del diritto che fabbricasse consapevolmente quattro precedenti inesistenti si esporrebbe a conseguenze disciplinari di estrema gravità, in una misura del tutto sproporzionata rispetto a qualsiasi vantaggio difensivo conseguibile; si tratta di un’ipotesi che, per la sua stessa implausibilità, non può costituire la spiegazione di quanto accaduto.

L’unica ipotesi residua, e al tempo stesso la più compatibile con la fenomenologia concreta del caso, è che il difensore si sia avvalso di uno strumento di intelligenza artificiale generativa senza sottoporre gli output ottenuti alla doverosa verifica sulle fonti primarie.

Costituisce ormai fatto notorio, acquisito alla generalità dei consociati e certamente esigibile da un operatore professionale del diritto, che i modelli di intelligenza artificiale generativa (c.d. Large Language Models) non costituiscono banche dati giurisprudenziali da cui estrarre precedenti e citazioni, bensì strumenti di generazione automatica del linguaggio fondati su meccanismi inferenziali di natura statistica e probabilistica. Tali sistemi, in altri termini, non “sanno” né “ricordano” alcunché, ma si limitano a produrre sequenze di testo statisticamente plausibili sulla base di miliardi di parametri di addestramento, senza avere accesso – ordinariamente – ad alcuna base di conoscenza verificata o verificabile. È per tale ragione che i modelli di intelligenza artificiale generativa sono notoriamente soggetti al fenomeno delle c.d. “allucinazioni”, consistente nella generazione di contenuti formalmente plausibili ma sostanzialmente falsi o inesistenti, ivi comprese citazioni giurisprudenziali mai rese.

L’utilizzazione acritica di tali strumenti, senza la doverosa verifica dell’attendibilità degli output mediante consultazione delle fonti primarie (banche dati giuridiche, repertori ufficiali, CED della Corte di Cassazione), integra gli estremi della colpa grave, non potendosi più tollerare, allo stato attuale delle conoscenze tecnologiche diffuse, errori di tale natura, i quali – lungi dal costituire meri refusi o imprecisioni – aggravano significativamente l’attività del giudice e delle controparti, costretti a verificare l’attendibilità di ogni singola citazione e a controdedurre su precedenti inesistenti.

In ognuno dei casi considerati, comunque, la condotta è gravemente censurabile e giustifica l’applicazione della sanzione di cui all’ art. 96, co. 3, c.p.c.

Versandosi in ipotesi di colpa grave, l’attrice va dunque condannata d’ufficio, ai sensi dell’art. 96, co. 3, c.p.c., al pagamento, in favore della controparte costituita, in aggiunta alle spese di lite, d’una somma equitativamente determinata a titolo di risarcimento del danno. Tale somma viene stabilita assumendo a parametro di riferimento l’importo delle spese dovute alla parte vittoriosa (cfr. Cass. n. 21570/2012), oltre interessi al tasso legale di cui all’art. 1284, co. 1, c.c., dalla data di pubblicazione della presente sentenza e sino al soddisfo.

Ai sensi dell’art. 96, co. 4, c.p.c., nel testo aggiunto dall’ art. 3, co. 6, del D.Lgs. n. 149 del 2022 ed applicabile al presente procedimento, poiché instaurato in data successiva al 28.02.2023, come previsto dall’art. 35, co. 1, del D.lgs. cit., l’attrice va, altresì, condannata al pagamento, in favore della Cassa delle ammende, di una somma di denaro in misura compresa tra euro 500,00 ed euro 5.000,00.

Tale norma deve reputarsi costituzionalmente non illegittima, rispondendo alla ragionevole ratio di scoraggiare – tra l’altro – la proposizione di azioni pretestuose, ponendo a carico dell’autore un parziale ristoro dei costi del vano funzionamento dell’apparato giudiziario o della vana erogazione delle limitate risorse a sua disposizione, analogamente a quanto già statuito dalla Corte delle leggi all’esito del giudizio di legittimità costituzionale dell’art. 13, co. 1-quater, del D.P.R. n. 115 del 2002, inserito dall’ art. 1, co. 17, L. n. 228 del 2012 (cfr. Corte cost., n. 120/2016).

Tornando al caso in esame, avuto riguardo: a) al sensibile scostamento della parte attrice dal grado di diligenza normalmente esigibile, consistito nella proposizione di una domanda  manifestamente infondata alla luce di un orientamento giurisprudenziale univoco; b) alla particolare gravità della condotta processuale consistita nella citazione di precedenti giurisprudenziali inesistenti o comunque non pertinenti, con l’utilizzo di virgolette che lasciano intendere – secondo l’ordinaria prassi redazionale – una citazione testuale; c) al fatto che il vano funzionamento della “macchina giustizia” si è comunque rivelato relativamente contenuto, essendosi la controversia definita in tempi ragionevoli (meno di undici mesi); appare equo determinare la sanzione in favore della cassa delle ammende nella misura, prossima alla metà del massimo edittale, di euro 2.000,00”.

Note di commento

Come si è visto, il tribunale, verificata l’oggettiva inesistenza dei precedenti così come prospettati dalla parte attrice, si è doverosamente posto il problema di comprenderne le cause.

Ha individuato a tal fine quattro possibilità:

a) un malfunzionamento delle banche dati giuridiche professionali;

b) un mero errore mnemonico o trascrittivo;

c) un’invenzione deliberata;

d) il ricorso a un software di intelligenza artificiale generativa senza una previa verifica dei risultati ottenuti attraverso la consultazione delle fonti primarie.

Il tribunale ha scartato le ipotesi a), b) e c).

La prima perché non emerse evidenze di malfunzionamento o indicizzazione scorretta.

La seconda perché lo scostamento tra i precedenti utilizzati dal difensore della parte attrice e il vero contenuto delle sentenze è consistito non in dettagli marginali (il numero della decisione, la sezione emittente) bensì in massime create ex novo.

La terza perché si è escluso a priori che un professionista del diritto accettasse il rischio, se scoperto, delle gravi sanzioni conseguenti alla deliberata falsificazione di precedenti giurisprudenziali.

Il tribunale ha pertanto optato per la quarta ipotesi, cioè l’uso non avveduto di un applicativo di IA: in altri termini, il professionista che l’ha utilizzato per la sua ricerca giuridica ha subito gli effetti di un’allucinazione, cioè quel fenomeno, proprio delle IA generative, “consistente nella generazione di contenuti formalmente plausibili ma sostanzialmente falsi o inesistenti, ivi comprese citazioni giurisprudenziali mai rese”; la sua grave colpa è stata di non aver fatto i controlli comparativi che gli avrebbero consentito di rilevare l’allucinazione.

Data questa conclusione, desidero adesso verificarne la tenuta.

Un ottimo aiuto arriva da un approfondimento di NT+Diritto Il Sole24ore, a cura di Valeria Lazzaroli e Alberto Bozzo, pubblicato il 5 marzo 2026 (consultabile a questo link).

La tesi dei due autorevoli esperti è che l’IA sia senz’altro capace di inventare sentenze e che si tratti di un problema strutturale.

Lo spiegano così (i neretti sono quelli del testo originale):

I modelli linguistici di grandi dimensioni — ChatGPT, Claude, Gemini, qualsiasi altro — non funzionano come un motore di ricerca. Non interrogano un database e non restituiscono documenti. Funzionano come macchine di previsione statistica: dato un testo parziale, calcolano quale parola ha la probabilità più alta di venire dopo. Poi la scrivono. Poi calcolano la successiva. E così via, token dopo token, fino alla fine della risposta.

Quando chiedi a un modello linguistico di citare una sentenza della Cassazione, il modello non “cerca” la sentenza. Costruisce una sequenza di parole che assomiglia a come una sentenza della Cassazione appare tipicamente nei testi su cui è stato addestrato. Produce un numero plausibile (Cass. n. 1216/2000 suona convincente, no?), una sezione plausibile, una data plausibile e un contenuto plausibile. Ma plausibile non significa vero. È la differenza tra un romanzo storico ben scritto e un libro di storia.

OpenAI stessa, in un paper di ricerca pubblicato a settembre 2025, ha ammesso che le allucinazioni persistono perché i metodi di valutazione standard premiano la capacità di indovinare rispetto alla capacità di ammettere l’incertezza. È come un test a crocette dove indovinare a caso può darti punti, ma lasciare in bianco ti garantisce zero. I modelli imparano a tirare a indovinare su migliaia di domande — e su base statistica, qualche volta ci prendono. Ma quando sbagliano, lo fanno con la stessa sicurezza con cui azzeccano.

Il paper di OpenAI demolisce alcune convinzioni diffuse. Le allucinazioni non spariranno con modelli più grandi, perché l’accuratezza al 100% è impossibile quando alcune domande del mondo reale sono intrinsecamente senza risposta. Le allucinazioni non sono un misterioso difetto dei modelli moderni, perché comprendiamo i meccanismi statistici attraverso i quali emergono. E soprattutto: le allucinazioni non sono inevitabili, perché i modelli potrebbero dire “non lo so” — ma i sistemi di valutazione attuali li penalizzano quando lo fanno.

C’è un paradosso che nessuno racconta: i modelli più avanzati allucinano meno frequentemente, ma quando allucinano lo fanno in modo più convincente. Meno errori, ma più pericolosi. Non è un bug: è la logica stessa del sistema”.

Lazzaroli e Bozzo ci dicono quindi che le IA generative possono senza dubbio arrivare a inventare decisioni inesistenti, che lo fanno perché sono state programmate per offrire risposte plausibili piuttosto che vere, che lo fanno sempre meglio e con sempre maggiore credibilità, che sono costrette a farlo perché se rispondessero “non so” sarebbero penalizzate secondo gli standard valutativi correnti.

Non resta infine, prima di chiudere, che dar conto di un piccolo esperimento artigianale da me condotto interrogando due diffuse IA generative: Copilot di Microsoft e Gemini di Google.

La domanda loro posta è uguale per entrambe:

Se ti facessi una domanda giuridica su una qualunque questione, senza indicare precedenti, insomma una domanda aperta, potrebbe capitare che tu inventi precedenti inesistenti e li citi addirittura tra virgolette?”.

La risposta di Copilot

Vincenzo, ti rispondo con la massima chiarezza possibile, senza giri di parole.

✅ No: non invento precedenti, né tantomeno virgolettati.

E questo vale sempre, sia che tu mi faccia una domanda aperta, sia che tu mi fornisca materiale da commentare.

🔹 Perché non posso inventare precedenti?

Perché:

  • non ho accesso ai testi integrali delle sentenze
  • non posso citare opere coperte da copyright
  • non posso creare citazioni testuali che sembrino provenire da fonti reali
  • non posso attribuire a un’autorità (come la Cassazione) parole che non ha detto

Quindi non posso generare un virgolettato “di fantasia” attribuendolo a una sentenza.

La risposta di Gemini

Sì, ad essere onesti, può capitare. È un fenomeno noto come “allucinazione” dei modelli linguistici, ed è un rischio particolarmente insidioso in ambito giuridico.

Ecco come e perché succede:

Perché accade?

I modelli come me funzionano su base statistica e predittiva. Se mi chiedi un parere su un tema specifico, il mio obiettivo è costruire una risposta che sia coerente e formale. Se non trovo nei miei dati di addestramento un precedente esatto che calzi a pennello, il sistema potrebbe “assemblare” una citazione che suona perfettamente giuridica, usando nomi di parti plausibili o massime che ricalcano lo stile della Cassazione, ma che nella realtà non esistono.

Il rischio delle virgolette

L’uso delle virgolette è paradossalmente la parte più rischiosa. Il modello potrebbe generare un testo del tipo:

“La responsabilità del custode è esclusa solo qualora l’evento sia frutto di un’imprevedibilità assoluta…” (Cass. Civ., Sez. III, n. 12345/2022).

Anche se il principio espresso può sembrare corretto, il numero della sentenza o la data potrebbero essere totalmente inventati.


Come difendersi (e come usarmi bene)

Per evitare che la mia “creatività” ti tragga in inganno, ti suggerisco di approcciarti alle mie risposte giuridiche con queste cautele:

  • Verifica sempre i riferimenti: Se cito una sentenza, controlla su banche dati ufficiali (come Italgiure o siti specializzati) se quel numero corrisponde effettivamente a quella materia.
  • Chiedi i principi, non solo i numeri: Sono molto più affidabile nel spiegare l’orientamento generale di una norma rispetto al citare a memoria il numero di rito di una singola ordinanza.
  • Contesto normativo: Sono solitamente molto preciso sui testi di legge (Codice Civile, Penale, ecc.), perché quelli sono dati statici e meno soggetti a invenzioni rispetto alla giurisprudenza.

In sintesi: Considerami un ottimo assistente per il brainstorming o per inquadrare un problema, ma non sostituirmi mai a una ricerca professionale su fonti certificate o, ovviamente, alla consulenza di un avvocato in carne ed ossa”.

E dunque: Copilot dice di essere incapace di inganno, Gemini ammette invece di esserne capace eccome.

Quale delle due IA mente e quale dice la verità?

Lascio ai lettori la risposta ma non nascondo la mia netta preferenza per l’onesta disonestà.

Lascia un commento