Coronavirus e Big Data: cosa non ha funzionato e cosa possiamo imparare
- 9 Aprile 2020
- 13 minuti
Come si fa a intervenire per affrontare un’emergenza o, più comunemente, a prendere decisioni efficaci, in base all’obiettivo prefissato, se non si conosce il quadro esatto e completo della situazione? La risposta sembra scontata: non è possibile. Ecco perché la raccolta e l’analisi dei dati vanno sempre messe al centro di ogni strategia di azione.
Big Data: una fonte illimitata di valore
Di Big Data si parla ormai da parecchi anni per indicare una quantità di dati talmente estesa in termini di volume, velocità e varietà da dover essere elaborata attraverso tecnologie specifiche e metodi analitici per acquistare significato. Sono proprio queste le parole chiave che definiscono le caratteristiche dei big data secondo il modello delle 3V teorizzato nel 2001 dall’analista Douglas Laney. Successivamente il modello ha subito un’espansione includendo altre due caratteristiche, perciò si parla oggi di modello delle 5V.
- Volume: la mole di dati prodotta ogni giorno è gigantesca, basti pensare ai dati generati da social media, transazioni economiche, internet delle cose o da tutti gli apparati tecnologici in funzione quotidianamente.
- Velocità: produzione e acquisizione dei dati avvengono con una rapidità sempre maggiore e la sfida sta proprio nel velocizzare il processo di analisi per restituire tempestivamente informazioni rilevanti e utili a chi, in base a queste, prende le decisioni.
- Varietà: i dati sono sempre più complessi perché derivano da formati e fonti differenti e in continua evoluzione.
- Variabilità: i dati non non sono entità statiche ma variano e possono acquistare significati diversi a seconda del contesto.
- Veridicità: sembra scontato dirlo, ma i dati devono essere attendibili e di qualità per produrre analisi utili, altrimenti diventano dannosi.
Proprio su questi aspetti si sofferma un articolo recentemente uscito su Harvard Business Review, Lessons from Italy’s Response to Coronavirus, a proposito della pandemia del Covid-19. Oltre alle considerazioni sullo scetticismo con cui in ogni Paese sono stati inizialmente accolti gli allarmi degli scienziati sul potenziale catastrofico della crisi, gli autori focalizzano l’attenzione sulla questione dei dati.
Bad data is worse than no data
In relazione a ciò, identifichiamo due aspetti particolarmente problematici verificatasi in questa vicenda legati alla quantità e all’affidabilità dei dati. Nelle prime settimane del contagio è stato un problema avere pochi dati a disposizione sulla situazione sanitaria in Italia in tempo reale. Infatti se avessimo avuto la disponibilità di dati circa i flussi di accesso agli ospedali e le malattie diagnosticate, avremmo potuto rilevare dei picchi di infezioni respiratorie molto al di sopra della norma, facendo scattare per tempo un segnale di allarme.
Mancando questo monitoraggio è venuta meno la possibilità di avere sin da subito un’immagine esatta della situazione, indispensabile per tracciare un piano di intervento efficace. Successivamente, il problema è stato causato dall’imprecisione dei dati disponibili dovuta a metodologie di raccolta non standardizzate, tanto che molti dubbi sono stati sollevati sulle grandi differenze nel numero di contagi e nel tasso di mortalità tra un Paese e l’altro. A livello Europeo ad esempio, a spiegazione sta nei diversi approcci adottati. Da una parte il numero dei positivi è molto diverso, perché il numero di persone sottoposte al test varia a seconda di come ogni Paese ha scelto di procedere, dall’altra il criterio con cui si computano i decessi attribuiti al Covid-19 non è uniforme. L’Italia ad esempio ha deciso di conteggiare tra i morti da Covid-19 anche i deceduti che presentavano altre patologie pregresse al momento del contagio, mentre altri Paesi contano soltanto gli scomparsi per coronavirus.
All’interno dell’Italia stessa, inoltre, si sono verificate delle disomogeneità nella raccolta e analisi dei dati. Per fare un esempio concreto di quanto sia utile poter misurare le differenze a livello locale, basta osservare la diversità di approccio tra Veneto e Lombardia circa i criteri per l’esecuzione dei tamponi e per l’ospedalizzazione: nel primo caso, il campione dei contagiati è stato sin dall’inizio della crisi più affidabile, per via della scelta di effettuare tamponi a tappeto; nel secondo, il dato di contagio maggiormente indicativo resta quello legato alle ospedalizzazioni, che escludono ovviamente la possibilità di avere informazioni su tutti i contagiati non ospedalizzati, o sui quali non sia stato effettuato il tampone.
Il risultato è stato di avere dati non omogenei e perciò non comparabili tra loro: ciò ha impedito di capire cosa stava funzionando e dove, complicando la gestione della crisi.
In uno scenario ideale, i dati, oltre che essere raccolti con criteri uniformi così da poter essere confrontabili, dovrebbero fornire una visione sia al livello macro che micro. La dimensione “micro” infatti non può essere sottovalutata, tanto più nel caso del nostro Paese in cui le differenze tra territorio e territorio, e tra struttura e struttura, sono rilevanti in termini di qualità e gestione dei servizi. Tenere conto di queste differenze è fondamentale per la definizione di una strategia di intervento.
È evidente che scarsità, inaffidabilità, e genericità dei dati sono un ostacolo alla documentazione e descrizione di qualunque fenomeno e, di conseguenza, impediscono di pianificare risposte efficaci e allocare correttamente le risorse disponibili.
L’importanza di adottare un approccio data driven
Da questa esperienza dovremmo perciò imparare che il tema dei Big Data riguarda tutti e ha una rilevanza strategica enorme, non più trascurabile, in qualunque settore si operi. Non attribuire ai dati un ruolo imprescindibile nei processi decisionali, infatti, produce conseguenze tanto più gravi quanto più importante è la posta in gioco. Occorre disporre di metodologie condivise per la raccolta dei dati e per estrarre da questi, attraverso strumenti di analisi, la conoscenza essenziale per comprendere gli eventi e la loro futura evoluzione. In questo modo, i Big Data possono rappresentare un aiuto formidabile per chi ha il compito di prendere decisioni efficaci, soprattutto in condizioni di forte pressione, scarsità di tempo o di risorse.