Modelli di credito algoritmico: rischio, incertezza e ciò che l'AI ignora

La differenza tra rischio, incertezza e ignoranza nei modelli di credito algoritmico. E perché questa distinzione è il problema concettuale che difficilmente si vuole sottolineare.

Esiste una citazione che ogni economista conosce e quasi nessuno ha letto nel contesto originale. Nel lungo periodo siamo tutti morti. Keynes la scrisse nel 1923, nel Tract on Monetary Reform, come critica alla teoria quantitativa della moneta — non come filosofia della vita, non come giustificazione dell’impazienza, e certamente non come endorsement del pensiero a breve termine. Era un argomento tecnico sulla velocità degli aggiustamenti reali rispetto ai modelli di equilibrio. Il problema è che chi la cita raramente ha letto il libro. E chi non ha letto il libro difficilmente ha letto il Treatise on Probability, pubblicato due anni prima, nel 1921 — che è il testo dove Keynes pone le fondamenta epistemologiche di tutto il resto.

Questo è vuole essere un breve saggio su quel libro. E su ciò che accade quando lo si ignora.

Il peso dell’evidenza: la dimensione nascosta della probabilità

Nello stesso anno in cui Keynes pubblicava il Treatise on Probability, Frank Knight pubblicava Risk, Uncertainty, and Profit. I due testi non si citano a vicenda — erano stati scritti in parallelo, su sponde diverse dell’Atlantico — ma affrontano lo stesso problema con strumenti concettualmente compatibili. La distinzione che entrambi introducono è rimasta nel dibattito accademico per un secolo senza mai diventare operativa nelle pratiche di gestione del rischio finanziario.

Knight distingue tre stati epistemici che il linguaggio comune — e la prassi finanziaria — tratta come se fossero un continuum. Il primo è il rischio misurabile: situazioni in cui le probabilità sono note o calcolabili, come nel lancio di un dado o in un portafoglio assicurativo con statistiche attuariali consolidate. Il secondo è l’incertezza vera: situazioni in cui le probabilità non sono calcolabili perché l’evento è strutturalmente unico, non replicabile, privo di frequenze storiche comparabili. Il terzo — implicito in Knight, esplicitato da Keynes — è l’ignoranza: situazioni in cui non sappiamo nemmeno quali variabili rilevanti dovremmo includere nel calcolo.

La triade di Knight: tre stati epistemici distinti

Fonte: F. Knight, Risk, Uncertainty, and Profit (1921); J.M. Keynes, A Treatise on Probability (1921)
Stato	Definizione	Esempio	Implicazione operativa
Rischio	Probabilità note o calcolabili su base statistica consolidata	Portafoglio assicurativo con dati attuariali decennali	Il modello quantitativo è categorialmente appropriato
Incertezza	Evento strutturalmente unico, privo di frequenze storiche comparabili	Prima emissione di un CDO sintetico su scala inedita	Applicare un modello probabilistico è un errore di categoria, non di calibrazione
Ignoranza	Non si conoscono nemmeno le variabili rilevanti da includere nel calcolo	Implicito in Knight, esplicitato da Keynes nel Treatise	Il framework stesso è inadeguato: la domanda è sbagliata prima ancora della risposta

La distinzione non è accademica. Ha conseguenze operative dirette. Un modello che calcola probabilità su base di incertezza vera non è un modello impreciso — è un modello categorialmente sbagliato. Non sbaglia il numero: sbaglia la domanda.

Keynes introduce nel Treatise on Probability un concetto che non ha mai trovato equivalente preciso nella prassi finanziaria: il peso dell’evidenza (weight of argument). È una dimensione della probabilità distinta dalla probabilità stessa. Una stima probabilistica ha due parametri, non uno: la stima numerica — diciamo, 73% — e il peso dell’evidenza su cui si basa. Una probabilità del 73% fondata su dieci osservazioni e una probabilità del 73% fondata su diecimila osservazioni sono lo stesso numero ma due oggetti epistemici completamente diversi.

Il punto cruciale è che i sistemi di reporting finanziario mostrano il numero ma non il peso. Un rating BBB+ prodotto da un modello addestrato su dati storici abbondanti e un rating BBB+ prodotto su una struttura sintetica nuova senza precedenti comparabili sono visivamente identici. L’investitore che li legge vede lo stesso simbolo. Il rischio sistemico si accumula precisamente in questo gap tra rappresentazione e peso epistemico sottostante.

Questo non è un problema teorico. È la descrizione precisa di ciò che accadde tra il 2004 e il 2007 nel mercato dei CDO sintetici. I rating sulle tranche senior erano costruiti su modelli di correlazione calibrati su dati storici pre-2000. Il peso dell’evidenza era strutturalmente basso — il mercato era nuovo, le correlazioni in condizioni di stress non erano mai state osservate su quella scala — ma nessuno lo dichiarava. I numeri erano precisi. La base era quasi vuota.

Come l’AI collassa l’incertezza in rischio — e perché le contromisure tecniche non bastano

I modelli di credit scoring algoritmico — gradient boosting, reti neurali, sistemi ibridi — operano su dataset storici di default. Addestrano distribuzioni su comportamenti passati e le applicano a popolazioni future. L’assunzione implicita è che la distribuzione degli eventi futuri sia statisticamente simile a quella degli eventi storici su cui il modello è stato calibrato. In termini di Knight: si tratta l’incertezza come rischio. Si assume stazionarietà dove non c’è garanzia di stazionarietà.

Tradotto: il modello sta facendo una previsione su qualcosa che non ha mai visto davvero. Applica pattern appresi su una popolazione a un individuo che quella popolazione la rappresenta solo in parte — e non segnala la differenza.

Esistono tentativi tecnici di affrontare il problema. I modelli bayesiani producono distribuzioni di probabilità invece di stime puntuali. Le tecniche di conformal prediction generano intervalli di confidenza calibrati empiricamente. L’uncertainty quantification — campo in rapida crescita — mira esplicitamente a misurare quanto un modello “sa di non sapere”. Questi strumenti sono reali e in alcuni contesti utili.

Strumenti tecnici di uncertainty quantification: cosa misurano e cosa escludono

Elaborazione su: Keynes (1921), Knight (1921), letteratura tecnica su UQ e conformal prediction
Strumento	Cosa misura	Limite strutturale	Copre il peso dell’evidenza?
Modelli bayesiani	Distribuzioni di probabilità invece di stime puntuali; intervalli più ampi su dati scarsi	Non segnala se il tipo di dati è inappropriato per il caso in esame	No
Conformal prediction	Intervalli di confidenza calibrati empiricamente sulla variabilità storica	Misura l’incertezza statistica della previsione, non l’adeguatezza epistemica del framework	No
Uncertainty quantification	Quantifica ciò che il modello “non sa” in termini di varianza e distribuzione out-of-distribution	Rende il rischio più trasparente; l’incertezza vera rimane fuori perimetro	No
Explainability (SHAP/LIME)	Quali variabili hanno contribuito a uno score e in quale misura	Trasparenza sui meccanismi, non sull’affidabilità epistemica della stima nel caso specifico	No
Peso dell’evidenza (Keynes)	Solidità epistemica della base su cui si fonda la stima probabilistica	Non implementato in nessun framework di credit scoring operativo attuale	Concetto originale

Ma nessuno di essi affronta il problema keynesiano del peso dell’evidenza come proprietà distinta dalla probabilità. Un modello bayesiano ben calibrato su dati scarsi produce intervalli di confidenza ampi — ma non sa dirti se i dati stessi sono il tipo sbagliato di dati per il caso in esame. La conformal prediction misura l’incertezza statistica della previsione, non l’adeguatezza epistemica del framework al caso specifico. La differenza è esattamente quella tra rischio e incertezza di Knight: le tecniche di uncertainty quantification rendono il rischio più trasparente; l’incertezza vera rimane fuori perimetro.

Un modello addestrato prevalentemente su clienti urban, bancarizzati, con storico creditizio decennale, che genera uno score su un lavoratore autonomo in zona rurale con due anni di attività, non segnala la differenza epistemica tra i due casi. Produce lo stesso tipo di output con la stessa apparente precisione — anche se dotato di intervalli di confidenza. Il problema non è la larghezza dell’intervallo. È che l’intervallo è calcolato sulla distribuzione sbagliata.

Perché l’explainability risponde alla domanda sbagliata — e il regolatore non lo sa ancora

L’explainability — il tentativo di rendere i modelli AI interpretabili attraverso tecniche come SHAP o LIME — affronta il problema sbagliato. Spiegare quali variabili hanno contribuito a uno score non risponde alla domanda di Keynes: quanto pesa l’evidenza su cui si basa quello score? Sapere che la variabile più influente era il rapporto debito/reddito non ci dice nulla sulla solidità epistemica della stima in quel caso specifico. L’explainability è trasparenza sui meccanismi; il peso dell’evidenza è trasparenza sull’affidabilità. Sono due misure ortogonali.

Questa distinzione ha implicazioni regolatorie che il quadro normativo attuale non è attrezzato a gestire. L’AI Act richiede trasparenza e spiegabilità per i sistemi ad alto rischio, inclusi quelli applicati al credito. DORA richiede resilienza operativa e gestione del rischio dei modelli. Entrambi i framework lavorano su tre assi: trasparenza, robustezza, auditabilità.

Ciò che manca — e che nessuno dei due framework include, perché nessuno dei due ha gli strumenti concettuali per includerlo — è una metrica epistemica della validità del modello nel caso specifico. Non “il modello funziona in generale?” ma “il modello ha basi epistemiche sufficienti per questo caso, in questo momento, su questa popolazione?” È una domanda categorialmente diversa, e la normativa attuale non la pone.

Questo non è un difetto tecnico della regolazione, correggibile con requisiti più stringenti sugli algoritmi. È un difetto di paradigma: il legislatore chiede il modello è spiegabile? La domanda corretta è il modello sa quando non sa?

Il paradosso di un teorico che gestiva un portafoglio reale

C’è un elemento biografico in tutto questo che vale la pena registrare — non come aneddoto, ma come prova della tesi. Keynes era lui stesso un investitore. Non un teorico astratto, ma il gestore del portafoglio del King’s College di Cambridge, una posizione che mantenne per oltre vent’anni con risultati notevoli. La sua strategia era esplicitamente costruita intorno alla distinzione tra ciò che era calcolabile e ciò che non lo era — e sulla consapevolezza che la maggior parte dei mercati opera nella seconda categoria mentre si comporta come se operasse nella prima.

Il Treatise on Probability non è un testo sulla finanza. È un testo sulla struttura logica dell’inferenza sotto incertezza. Ma il suo autore lo scrisse mentre gestiva un portafoglio reale, e questa non è una coincidenza. Chi prende decisioni ad alto impatto su base informativa limitata ha bisogno di sapere non solo quanto stima la probabilità di un evento, ma quanto vale quella stima.

Un secolo dopo, i sistemi che prendono decisioni ad alto impatto su base informativa abbondante hanno risolto il problema della stima ma ignorato il problema del peso. Producono numeri precisi su fondamenta epistemiche che nessuno dichiara e nessun regolatore misura.

Il problema non è che i modelli sbagliano. È che non sanno distinguere quando stanno rispondendo a una domanda che non ha risposta.

Domande frequenti

Il rischio è misurabile: le probabilità sono calcolabili su base statistica consolidata. L’incertezza è strutturalmente diversa: riguarda eventi unici, privi di frequenze storiche comparabili, per i quali un modello probabilistico non è impreciso ma categorialmente sbagliato. I modelli di credit scoring algoritmico trattano sistematicamente l’incertezza come se fosse rischio, applicando distribuzioni storiche a situazioni che non hanno precedenti statisticamente equivalenti.

Keynes distingueva due dimensioni di una stima probabilistica: il numero in sé (ad esempio, 73%) e il peso dell’evidenza su cui si basa. Una stima al 73% fondata su dieci osservazioni e una fondata su diecimila sono lo stesso numero ma due oggetti epistemici completamente diversi. I sistemi di credit scoring mostrano il numero ma non il peso, producendo output apparentemente identici su basi epistemiche radicalmente diverse.

No. L’explainability tramite tecniche come SHAP o LIME risponde alla domanda su quali variabili hanno influenzato uno score e in che misura. Il peso dell’evidenza risponde a una domanda diversa: quanto vale epistemicamente quella stima nel caso specifico? Sono due misure ortogonali. L’AI Act e DORA richiedono trasparenza e spiegabilità, ma nessuno dei due framework include una metrica epistemica della validità del modello nel caso specifico.

I rating sulle tranche senior dei CDO sintetici erano costruiti su modelli di correlazione calibrati su dati pre-2000. Il mercato era strutturalmente nuovo e le correlazioni in condizioni di stress non erano mai state osservate su quella scala: incertezza vera, non rischio misurabile. Il peso dell’evidenza era strutturalmente basso ma nessuno lo dichiarava. I numeri erano precisi; la base epistemica era quasi vuota. La crisi del 2007-2008 è la dimostrazione storica più chiara del costo operativo di questa confusione concettuale.