Sfida 4: Ruolo dei dati¶

Le tecniche e gli strumenti di Intelligenza Artificiale (IA) stanno oggi beneficiando dell’enorme mole di dati personali e ambientali che quotidianamente viene registrata dai sistemi informatici. La qualità e l’interoperabilità di questi dati rappresentano un fattore determinante per la possibilità stessa di applicare le nuove tecnologie. Tra le principali tecniche di IA che possono essere utilizzate per elaborare tali dati, ad esempio, vi è quella del cosiddetto supervised learning. In questo caso, i dati devono essere “annotati” dagli esseri umani che insegnano alle macchine come interpretarli. Questa operazione è molto onerosa perché richiede cospicuo e complesso lavoro umano. Oltre al lungo tempo necessario per compiere tale lavoro di annotazione, la discrezionalità degli annotatori potrebbe generare dataset disomogenei (ovvero: dati simili annotati in maniera diversa), depotenziando il funzionamento delle macchine e propagando errori e bias [1].

La sfida associata al ruolo dei dati è dunque la creazione di condizioni, anche organizzative, che consentano all’Intelligenza Artificiale di utilizzare basi di dati costituite in maniera corretta, dove siano garantite consistenza, qualità e intelligibilità.

Nel campo della Internet of Things, una delle principali sfide da affrontare consiste nel fatto che i dati raccolti da dispositivi e sensori interconnessi sono differenti da quelli con cui la comunità scientifica dei data scientist ha dovuto misurarsi in passato. I più grandi successi che sono stati conseguiti in ambito di IA riguardano, infatti, applicazioni come l’elaborazione di immagini, la guida autonoma e la ricerca sul web che sono stati resi possibili grazie alla disponibilità di dataset ampi e relativamente strutturati, in grado quindi di essere impiegati nell’addestramento degli algoritmi di apprendimento automatico (machine learning). Al contrario, i dati provenienti da una moltitudine di dispositivi connessi fra loro possono risultare frammentati, eterogenei e distribuiti irregolarmente nello spazio e nel tempo: una sfida di rara complessità per chiunque aspiri ad analizzare i dati in maniera strutturata.

Un secondo terreno di confronto è rappresentato dalla gestione e ricerca dei dati pubblicati in rete sotto forma di linked open data [2]. Tali dati, che possono riguardare sia il compito istituzionale di un ente pubblico (e.g. dati catastali o amministrativi) sia il suo funzionamento (e.g. dati interni) sono resi accessibili e fruibili mediante formati aperti. Pur rappresentando una miniera di informazioni, i dati hanno bisogno di strumenti adeguati per poter essere sfruttati in tutto il loro potenziale. In particolare, servono modelli e metodi di recupero e filtraggio delle informazioni [3] fondati su tecnologie semantiche e ontologie condivise. Questo lavoro, già previsto dal CAD e avviato nell’ambito delle attività del Team Digitale, andrà inquadrato nella prospettiva più ampia di una governance concettuale del patrimonio informativo pubblico.

Per quanto riguarda l’enorme patrimonio di dati della Pubblica amministrazione, la sfida che le tecnologie di IA consentono di affrontare è quella di trasformare tali dati in conoscenza diffusa e condivisa, tale da rendere trasparente la PA verso i cittadini e soprattutto verso se stessa, garantendo a cittadini e amministratori non solo l’accesso semantico alle informazioni e l’interoperabilità dei processi, ma una migliore comprensione del rapporto tra Stato e cittadino.

Una volta create le condizioni per il buon funzionamento delle metodologie di Intelligenza Artificiale, uno dei compiti della Pubblica amministrazione potrà essere quello di aggregare i dati necessari per supportare il miglioramento dei processi. Questo potrebbe realizzarsi attraverso la creazione di una piattaforma aperta per la raccolta, generazione e gestione di alcune tipologie di dato, facente capo direttamente alla Pubblica amministrazione [4]. L’utilizzo decentralizzato dei dataset pubblici, essenziale per lo sviluppo di pratiche di partecipazione attiva (civic activism), richiede a sua volta specifiche capacità di governance del sistema socio-tecnico della Pubblica amministrazione. È fondamentale, infatti, che la qualità dei dati sia assicurata alla fonte, mediante l’adozione generalizzata di linee guida e di adeguati standard di contenuto.

Per raggiungere questi ambiziosi obiettivi, i temi da affrontare sono molti, inclusi alcuni che compaiono già da anni nei piani di e-government dei paesi sviluppati. Fra questi:

veridicità e completezza dei dati;
modalità di distribuzione e accesso ai dati;
progettazione e definizione di ontologie condivise;
supervisione della qualità dei dataset pubblici;
stima del valore economico attribuibile ai dati;
strumenti che consentano al cittadino di monitorare la produzione dei dati;
gestione e promozione dell’accesso ai dati [5];
regolamentazione dell’utilizzo dei dati [6].

Le ultime tre voci dell’elenco appena presentato introducono un ulteriore tema per la PA: fare in modo che chiunque voglia sviluppare soluzioni di Intelligenza Artificiale utili al cittadino possa avere un accesso paritario e non discriminatorio ai dati necessari.

Note

[1]	Cfr. la “Sfida Etica”.

[2]	Cfr. https://www.w3.org/egov/wiki/Linked_Open_Data.

[3]	Information Retrieval: l’insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico.

[4]	Cfr. https://pianotriennale-ict.readthedocs.io/it/latest/doc/09_data-analytics-framework.html.

[5]	Si possono indire, per esempio, dei «grand challenge». Sono famosi quelli organizzati dal NIST su Speech Recognition e Machine Translation, da DARPA sugli Autonomous Vehicles, o da ImageNet sulla Vision.

[6]	Cfr. http://eur-lex.europa.eu/legal-content/en/TXT/?uri=CELEX%3A32016R0679.