93FE310D-CB37-4670-9E7A-E60EDBE81DAD Created with sketchtool.
< Home

Quando trattiamo i dati dobbiamo evitare di essere “così italiani”

Articolo. Numeri, valori, raffronti e percentuali, condizionano e pilotano le nostre scelte, caricati di una competenza “predittiva” che permette loro di leggere il futuro e svelare ciò che non conosciamo. Ma i dati mostrano sempre la realtà? Ne abbiamo parlato con il professor Federico Cabitza, ospite di BergamoScienza

Lettura 5 min.

C’erano una volta le sfere di cristallo, affascinanti e misteriose, in grado di mostrare visioni dal futuro. Oggi, invece, nel mondo dei codici e del cyber spazio, le classiche sfere da chiromante stanno prendendo la polvere sullo scaffale perché i super poteri sono ora proprietà esclusiva dei dati. Raccolta, archiviazione, analisi e deduzione hanno sostituito il circuitare delle mani attorno alle palle di vetro per smuovere i flussi energetici e, più freddamente, la scienza ci ha mostrato la via della luce.

Raccogli i dati e seguili se vuoi capire come modificare la tua produzione, come sta reagendo quel particolare macchinario, come regolare i flussi della mobilità cittadina o come gestire una pandemia. La fiducia nei numeri è tale che sono nate professioni e specializzazioni che portano equipe di giovani talenti a dedicare la loro vita lavorativa a queste serie numeriche. Informazioni preziose, in molti casi fondamentali, in altre potenzialmente devastanti.

Di questo doppio potere dei dati – da una parte amici dell’umanità, dall’altra alimento di fake news e teorie complottistiche – ne è consapevole Federico Antonio Niccolò Amedeo Cabitza, professore associato presso l’università degli studi di Milano-Bicocca, Dipartimento di Informatica, sistemistica e comunicazione, che interverrà sul tema giovedì 22 aprile alle ore 18:30, con una diretta streaming sui canali social di BergamoScienza (Facebook, YouTube, Twitch).

Il titolo dell’incontro è emblematico: “I dati mostrano sempre la realtà?” E questa è la domanda che abbiamo posto al professor Cabitza.

La verità è nei dati, ma noi sbagliamo a mostrarla

“Interpretare i dati, siano essi testuali o numerici e vedere in essi degli schemi latenti e impliciti è molto difficile. Allo stesso modo comunicare schemi e fatti in maniera intuitiva è ancora più complesso ed è un compito che hanno persone diverse, non sempre in contatto fra loro”, ci dice Cabitza. Ecco la prima difficoltà che l’argomento solleva: i dati sono molti, arrivano da percorsi differenti e scegliere come descriverli in un grafico non è sempre immediato. Vedere esattamente cosa i numeri celano non è cosa semplice, ma ancora più renderlo chiaro agli altri è un’arte che deve essere appresa e maneggiata con cura. È complesso, infatti, compiere la scelta di raffigurazione più adatta affinché chi legge quest’analisi sia realmente in grado di capirla e, in questo caso, gioca un ruolo importante l’educazione alla lettura dei grafici.

Cabitza spiega: “Servono educazione ed abitudine all’osservazione e lettura dei dati per non fraintenderli e in Italia non ne siamo ancora capaci. Gli errori vengono in parte dal nostro bagaglio culturale, ma anche dalla malizia e dalla superficialità nel manipolare le cose. Un esempio concreto sono le visualizzazioni che mostrano l’andamento della pandemia. Nell’ultimo anno ci siamo abituati a guardare linee temporali e mappe geografiche che spesso distolgono il messaggio e non tengono conto delle difficoltà di interpretazione”.

Fatta questa premessa il docente di data visualization passa ad un altro esempio concreto: “Prendiamo a riferimento una mappa coropletica, le classiche mappe geografiche con dei punti che indicano l’incidenza di un determinato fatto su un luogo o i singoli comuni. Il primo errore, quello più comune è di usare il verde e il rosso per indicare in un caso la positività e nell’altro la negatività, nello specifico l’incidenza dei casi Covid rispetto a un certo numero di abitanti. Una mappa di questo tipo non verrà mai compresa da un daltonico, ovvero da circa 8 persone su 100. Si potrebbe usare il rosso e il blu per ovviare al problema, ma il nostro retaggio culturale associato al via libera o allo stop del semaforo restano preponderanti”.

“Poi c’è la dicotomia fra la rappresentazione del dato e la notizia – aggiunge il professore – perché una mappa espressa in questo modo ci dà un’informazione molto povera e non ci avvisa, per esempio, se una particolare zona è vicina alla soglia di rischio o meno. In questo caso sarebbe meglio la rappresentazione di una mappa che mostra con la granularità di un gradiente, l’intensità del dato. Ecco allora che un rosso molto più scuro mi dice se sono molto al di sopra della soglia limite o un blu leggero se da quel valore mi trovo molto lontano”.

Questi errori tecnici, spiega Cabitza, non solo tolgono accessibilità all’informazione, escludendo l’esistenza di difetti visivi, ma rendono povera l’informazione e possono portare a interpretazioni e decisioni sbagliate.

I dati sono manipolati (ed è normale)

Altro aspetto da tenere in considerazione è la fallacia dei dati grezzi: “Spesso si pensa che un dato grezzo sia più vicino alla realtà, ma questi valori non esistono, qualunque dato è – per così dire – ‘cotto’, lavorato. I valori raccolti, infatti, dipendono dai tempi e dalle modalità della loro registrazione e in questo caso proprio il valore sull’andamento dei contagi è un esempio significativo”.

In Italia è pressoché sconosciuto il concetto di ‘media mobile’, “ovvero il calcolo sull’andamento di un determinato fenomeno in un determinato numero di giorni. Rispetto all’andamento della pandemia in Italia viene riportato quotidianamente il dato puntuale del giorno prima e ogni volta lo si confronta con il giorno precedente. Quando il paragone è con i valori registrati nel fine settimana occorre così soffermarsi e spiegare l’andamento molto discostante dei valori.

E qui si torna all’importanza di trattare con i numeri e dell’impossibilità di avere valori astrusi dalla loro rilevazione, come il professore chiarisce: “Chi produce i dati prende delle decisioni rispetto alla loro rilevazione – decide quando, dove, come e per quanto tempo raccoglierli – e chi li consuma potrebbe non essere al corrente di tutte queste scelte. Per esempio, ci ricordiamo tutti che a un certo momento nelle analisi sui nuovi contagi in Italia l’indice di trasmissibilità è crollato, ma questo è successo perché si è scelto di allargare la tipologia dei tamponi validi includendo sia quelli molecolari, sia quelli cosiddetti rapidi e la platea di raffronto è aumentata. Questa informazione sul contesto della raccolta dati va in qualche modo inserita nella visualizzazione, non può essere relegata a una riga nell’articolo”.

Rappresentare il vero è un’arte da imparare

“La verità c’è, ma può essere sempre vista anche dalla prospettiva diversa – sottolinea Cabitza – a seconda della chiave di lettura che si applica e a seconda di quello che si osserva, si hanno modi diversi di raccontarla. Se le guardiamo attentamente anche le fake news partono quasi sempre da un dato, in molti casi corretto, ma estrapolato completamente dal suo contesto acquista tutto un altro significato e distorce l’informazione”.

La soluzione c’è, ma non è veloce: “Ci vuole una cultura maggiore sia dalla parte di chi crea le visualizzazioni grafiche, sia rispetto a chi quei dati li legge. Un esempio positivo che si può cogliere facilmente è quello degli articoli dell’Economist. Questa testata ha messo a punto un sistema di visualizzazione dei valori che è chiaro, informativo ed elegante, con grafiche principali e valori che esplicitano delle informazioni nascoste, secondarie forse, ma necessarie a dare quella che è definita l’evidence del dato, da non intendersi solo come evidenza, ma anche come prova della correttezza di quel valore”.

In conclusione il professore, sorridendo, cita Stanis La Rochelle, uno dei personaggi di Boris, e dice: Dobbiamo evitare di essere ‘così italiani’, abbandonare l’aspetto puramente grafico e riconoscere che dobbiamo apprendere ancora molto su questo aspetto, perché qui si gioca molto dell’informazione e della divulgazione. La visualizzazione del dato è uno strumento di comprensione veloce, ma questo non giustifica che deve essere approssimativo. Circa 8 rappresentazioni su 10 tra quelle che circolano quotidianamente su stampa e web, hanno qualche errore che distorce il messaggio. Sono errori di scala, di assi troncati, di colore, ma condizionano la comprensione”.

Per chi è interessato ad approfondire il tema, infine, il professor Cabitza lascia un consiglio di lettura: “Come i grafici mentono. Capire meglio le informazioni visive” di Alberto Cairo.

Sito BergamoScienza

Approfondimenti