I dati di addestramento: descrivere il mondo o immaginarne uno migliore?

L’importanza dei dati di addestramento e della loro qualità è un concetto noto, spesso però ridotto alla loro aderenza alla realtà. Ma se nella realtà vi sono discriminazioni, l’algoritmo imparerà a discriminare. L’e-government non si può limitare a ciò che è oggi, ma a ciò che dovrebbe essere.

La diffusione sempre maggiore dei sistemi di intelligenza artificiale e di algoritmi nella pubblica amministrazione rende sempre più pregnante l’importanza della qualità dei dati, in quanto anche l’algoritmo più sofisticato è sempre soggetto al principio garbage in, garbage out. Se questo è vero già per gli algoritmi più semplici, quelli in cui il percorso decisionale è predeterminato, in quanto il risultato finale non può che essere legato alla qualità dei dati in ingresso, assume un rilievo ancora maggiore per gli algoritmi addestrati con principi di machine learning e deep learning 

Nel caso in cui i dati di addestramento non siano adeguati, o siano categorizzati in modo errato, l’algoritmo non potrà infatti che apprendere l’errore: un esempio è quello del chatbot Tay rilasciato dalla Microsoft, che apprendeva tramite l’interazione con i tweet degli utenti e che, a causa dell’elevato numero di tweet dai contenuti razzisti o sessisti con i quali aveva interagito, finì, per usare le parole con cui la Microsoft stessa commentò la vicenda, a twittare “wildly inappropriate and reprehensible words and images”. 

La questione però non andrebbe limitata alla qualità dei dati in senso stretto, vale a dire all’accuratezza, integrità e pertinenza degli stessi, ma andrebbe estesa anche ad elementi che potremmo definire di natura “etica”.  

Uno spunto di ragionamento sulla questione ci viene offerto dal famigerato caso COMPASS, o da altri sistemi di valutazione del rischio di commissione di crimini, o del rischio di recidiva, sempre più diffusi negli Stati Uniti e al momento, fortunatamente, avversati dal parlamento europeo (ne abbiamo parlato QUI). Questi sistemi, alimentati con i dati della recidiva di soggetti precedenti, o dei crimini commessi in certe zone della città, mirano asseritamente a prevedere e conseguentemente prevenire questi eventi identificando ad esempio, sulla base dei dati raccolti, il rischio che un dato soggetto commetta nuovamente un crimine. 

Il problema di questi sistemi è che si sono rilevati “discriminatori”, vale a dire che attribuiscono una rischiosità maggiore alle minoranze di colore, o ai quartieri abitati prevalentemente da ceti bassi dove queste minoranze spesso risiedono. E qui nasce una questione: l’algoritmo non “sbaglia” nel prevedere che persone con meno mezzi abbiano maggiori rischi di recidiva, e del resto non serviva un algoritmo per dircelo visto che è cosa nota dal punto di vista sociologico. Ma, usando quel dato, l’algoritmo non sta più fornendo un “giudizio” sulla persona, sulla sua tendenza a delinquere in astratto, bensì sulle maggiori o minori possibilità che lo Stato gli ha dato di redimersi. 

Una predizione, pur corretta, può così trasformarsi in una certificazione della discriminazione, in una giustificazione. Ma vi è di peggio; l’algoritmo può aumentarla. L’esempio viene anche dai sistemi di valutazione del credito, con i quali in America si cerca di stabilire chi sia o meno meritevole di un prestito. Confermando il dato iniziale, che chi dispone di meno denaro o non ha in passato pagato nei termini una multa, meno probabilmente restituirà un prestito, chi ha più bisogno di esso ne verrà automaticamente escluso, rendendo così ancora più probabile che in futuro non riesca a ripagare i propri debiti. L’effetto finale è una polarizzazione delle discriminazioni. 

La distinzione tra uguaglianza formale e sostanziale diventa così estremamente rilevante. Quello stesso principio, già noto ai nostri costituenti, e integrato nell’articolo 3 della Costituzione , che indica come sia compito dello Stato rimuovere gli ostacoli che il contesto (a causa del ceto, l’etnia, il genere o altro) pone allo sviluppo dell’individuo, è quanto mai attuale. 

La predizione basata sul passato ci dice come un contesto, probabilmente tutt’altro che perfetto, ha generato il dato. Ma se uso quel dato per decidere il futuro, non faccio che rafforzare quegli ostacoli che costituzionalmente, ed in ogni caso eticamente, come Stato ho il dovere di rimuovere 

Se lo scopo è rimuovere le discriminazioni, allora stabilire solo ciò che è probabile, o più efficiente, non è abbastanza, e nel valutare i dati con i quali addestro l’algoritmo devo prestare estrema attenzione a quali elementi vanno rimossi, o a quali correttivi vanno inseriti, per bilanciare il dato storico senza generare una profezia che si autoavvera e che trasformi le discriminazioni da qualcosa da rimuovere dallo Stato di diritto, a qualcosa da accettare, perché frutto di un dato calcolato e conseguentemente asseritamente giusto. 

Questa parte non può che essere svolta dall’uomo, perché, per quanto sviluppato, un sistema di intelligenza artificiale potrebbe al massimo essere imparziale, ma di per sé non equo, e, come la nostra Costituzione ci insegna, l’uguaglianza formale (per cui basta l’imparzialità) e sostanziale (per cui non si può prescindere dal concetto di equità), sono concetti diversi. 

Infatti, i sistemi di intelligenza artificiale, per quanto accurati, per quanto elaborati, non possono, per loro natura, che “ragionare” su ciò che è stato. Non sono in grado di plasmare un futuro diverso dal passato e se nel loro sviluppo, se nella scelta della pertinenza dei dati, non vi è l’apporto dell’uomo, di una scelta di fondo sul meccanismo che si vuole portare avanti, porterebbero alla cristallizzazione del passato, finirebbero per rafforzare stereotipi e discriminazioni. Solo l’uomo può scegliere di non considerare un dato, non già perché non sia un “predittore” più o meno efficiente rispetto all’analisi, ma perché, per ragioni di equità, non si vuole usare detto dato per prendere la decisione. 

Con ciò non si vuole certo demonizzare l’uso dei sistemi di intelligenza artificiale, ma al contrario ricordare che gli stessi sono mezzi, mezzi che di per sé non hanno fini, e che è, e rimarrà, compito dell’amministrazione usarli per raggiungere un miglioramento nello sviluppo della qualità della vita. 

Appare quindi necessario contrastare la tendenza a delegare a un sistema di intelligenza artificiale la scelta, ricordando che questi strumenti devono aiutare il decisore a prenderla, non assumerla al suo posto, e che la cosiddetta “imparzialità” di una macchina non garantisce scelte più giuste, a maggior ragione ove il suo ragionamento venga viziato per la scarsa qualità, o la non adeguata selezione, dei dati di partenza.

 

Licenza Creative Commons
Quest’opera è distribuita con Licenza Creative Commons Attribuzione 4.0 Internazionale