Tech

Una montagna di dati

di Alessandro Moretti

Tutti sanno che internet ha cambiato il modo di lavorare delle aziende, il funzionamento dei governi e la vita delle persone. Ma un nuovo fenomeno meno visibile, i grandi insiemi di dati o big data, sta provocando una trasformazione ancora più importante. Tutto è partito dal fatto che oggi le informazioni in circolazione sono molte di più rispetto al passato e sono usate in modo straordinariamente innovativo. I grandi insiemi di dati sono qualcosa di distinto da internet, anche se con la rete è più facile metterli insieme e condividerli. Inoltre non riguardano solo la comunicazione, perché l’idea di base è che da un grande numero di informazioni possiamo apprendere cose che non era possibile scoprire quando ne usavamo di meno. Nel terzo secolo avanti Cristo si riteneva che la biblioteca di Alessandria contenesse la summa della conoscenza umana. Oggi nel mondo esiste una tale quantità di informazioni che ogni essere umano ne ha 320 volte di più di quelle contenute ad Alessandria: circa 1.200 exabyte. Se tutte queste informazioni fossero trasferite su cd e se i CD fossero messi uno sull’altro, formerebbero cinque pile che arrivano fino alla luna. Questa esplosione di dati è un fenomeno relativamente nuovo.

Nel 2000 solo un quarto delle informazioni archiviate in tutto il mondo era in forma digitale. Ma poiché i dati digitali aumentano rapidamente, raddoppiando ogni tre anni, la situazione si è capovolta: oggi meno del 2% delle informazioni archiviate non è in forma digitale. I grandi insiemi consentono la cosiddetta ‘datificazione‘, cioè la possibilità di trasformare in dati molti aspetti del mondo che finora non erano mai stati quantificati. La posizione geografica, per esempio, è già stata datificata, prima con l’invenzione della longitudine e della latitudine e poi con l’introduzione del GPS. Con Facebook, perfino le amicizie e i ‘mi piace’ sono datificati. Questo tipo di dati si presta a nuovi e incredibili usi grazie alla memoria dei computer sempre più economica, i processori molto potenti, algoritmi, software e una matematica che prende in prestito le tecniche della statistica. Invece di ‘insegnare’ a un computer a fare cose come guidare un’automobile o tradurre da una lingua all’altra, oggi si inseriscono nel computer abbastanza dati per fargli calcolare quante probabilità ci sono che un semaforo sia rosso o verde o se la parola inglese “light”, in un certo contesto, vada tradotta con “luce” o con “leggero”.

Per usare grandi quantità di informazioni in questo modo è necessario introdurre tre cambiamenti essenziali nel nostro modo di trattare i dati. Il primo consiste nel raccoglierne e usarne moltissimi invece di analizzare solo dei campioni. Il secondo consiste nel rinunciare alla precisione e accettare il disordine: in un numero sempre maggiore di situazioni è tollerabile un po’ di imprecisione. Il terzo è che in molti casi dovremo rinunciare a capire le cause dei fenomeni e accontentarci di stabilire alcune correlazioni. Invece di provare a capire perché un motore va in panne o perché gli effetti collaterali di un farmaco scompaiono, si possono raccogliere e analizzare enormi quantità di informazioni per individuare schemi ricorrenti che permettano di prevedere cosa succederà in futuro. Le grandi raccolte di dati servono a scoprire cosa succede, non perché succede. Ma in molti casi questo è più che sufficiente. Mentre internet ha cambiato profondamente il modo di comunicare degli esseri umani, i big data hanno cambiato il modo in cui la società elabora le informazioni. E in futuro, probabilmente, cambieranno anche il nostro modo di vedere il mondo.

Gli esseri umani hanno sempre lavorato con quantità relativamente piccole di dati, perché gli strumenti per raccoglierli, organizzarli, archiviarli e analizzarli erano limitati e perché era più facile esaminare informazioni ridotte al minimo. Negli ultimi cent’anni la statistica ha permesso di comprendere realtà complesse partendo da pochi dati. La difficoltà di gestire le informazioni si risolveva usando dei campioni. Quando raccogliere dati era costoso ed elaborarli era complicato e lungo, la salvezza era il campione. L’idea di base era che, con un certo margine d’errore, si poteva desumere qualcosa sul totale della popolazione partendo da un piccolo sottoinsieme. Alla vigilia delle elezioni, per esempio, i sondaggisti interrogano un gruppo di qualche centinaio di persone selezionate a caso, per prevedere i risultati generali. Per le domande semplici questo sistema funziona abbastanza bene, ma fa acqua se si vuole indagare su un sottogruppo all’interno del campione. Cosa succede se i sondaggisti vogliono sapere quale candidato voteranno le donne single al di sotto dei trent’anni? All’improvviso il campione casuale diventa praticamente inutile, perché potrebbe contenere solo poche persone con quelle caratteristiche. Ma se è possibile raccogliere tutti i dati, cioè se il numero di dati del campione coincide con quello dell’intera popolazione, allora il problema non sussiste. Quest’esempio evidenzia un altro limite dell’uso di una piccola quantità di dati: in passato, quando se ne raccoglievano pochi, bisognava decidere fin dall’inizio quali dati scegliere e come sarebbero stati usati; oggi che li raccogliamo tutti, non c’e più bisogno di farlo.

Però dobbiamo accettare un compromesso. Quando aumenta la quantità, spesso è necessario rinunciare ad avere dati accurati e precisi e accettare un po’ di disordine, il contrario del modo in cui si lavora da secoli. Ma la mania della precisione era in qualche modo frutto delle informazioni limitate. Quando c’erano pochi dati a disposizione, i ricercatori dovevano essere sicuri che quelli che riuscivano faticosamente a raccogliere fossero il più esatti possibile. Ora possiamo permetterci qualche imprecisione (a condizione che l’insieme prescelto non sia completamente sbagliato) per sfruttare i vantaggi della grande quantità. Pensate alla traduzione. Può sembrare scontato che i computer traducano bene, perché possono archiviare moltissime informazioni e ritrovarle rapidamente. Ma se si sostituissero le parole di una lingua con quelle di un’altra usando semplicemente il dizionario, il risultato sarebbe assurdo. La lingua è una cosa complessa. Un passo avanti è stato fatto negli anni novanta, quando l’IBM ha sperimentato la traduzione automatica su base statistica: ha inserito in un computer il testo dei discorsi dei deputati del parlamento canadese in inglese e francese e ha programmato il software per dedurre quale parola di una lingua fosse l’alternativa migliore nell’altra. Questo sistema ha trasformato la traduzione in una gigantesca questione di probabilità e di calcolo. Ma dopo questo primo passo avanti non è stato fatto nessun progresso. Poi è arrivato Google. Invece di usare un numero relativamente piccolo di traduzioni di ottima qualità, il colosso della ricerca ha raccolto molti più dati dal caos di internet. Ha preso traduzioni dai siti web delle aziende, dai documenti in tutte le lingue dell’Unione europea, perfino dal suo enorme progetto di scansione dei libri. Il risultato è stato che le sue traduzioni sono decenti, meglio di quelle dell’IBM, e in 65 lingue. Una grande quantità di dati disordinati si è rivelata più utile di una piccola quantità di dati precisi.

Questi due cambiamenti nel modo di usare i dati, da pochi a molti e da precisi a disordinati, hanno dato origine a un terzo passaggio: quello dalla causalità alla correlazione, che rappresenta la rinuncia a cercare sempre di capire come funziona il mondo, accontentandosi delle associazioni tra fenomeni e usando queste associazioni per risolvere i problemi. Naturalmente è sempre meglio conoscere le cause degli eventi, ma spesso sono difficili da individuare, e molte volte, quando pensiamo di averle individuate, scopriamo che sono solo un’illusione. L’economia comportamentale ha dimostrato che gli esseri umani tendono a vedere cause anche dove non esistono. Quindi dobbiamo evitare che i nostri pregiudizi cognitivi ci creino delle illusioni. A volte dobbiamo semplicemente lasciar parlare i dati. Prendiamo, per esempio, il corriere UPS. I suoi meccanici applicano dei sensori ad alcuni componenti dei furgoni dell’azienda per individuare le variazioni di temperatura e le vibrazioni che in passato sono state notate quando c’è stato un guasto. In questo modo si possono prevedere i guasti e sostituire i pezzi comodamente in officina invece che al bordo della strada. I dati raccolti non rivelano il rapporto preciso tra il calore o le vibrazioni e il guasto dei componenti. Non fanno capire perché c’è un problema, ma dicono abbastanza per decidere come intervenire.

Un sistema simile si usa per prevedere anche i guasti della macchina umana. Alcuni ricercatori canadesi stanno studiando un metodo basato sulle grandi quantità di dati per individuare le infezioni nei bambini nati prematuri, prima che compaiano i sintomi. Trasformando sedici parametri vitali (come il battito cardiaco, la pressione sanguigna, il ritmo del respiro e il livello di ossigeno nel sangue) in un lusso di informazioni di più di mille dati al secondo, i ricercatori sono riusciti a trovare una correlazione tra piccolissimi cambiamenti e problemi più gravi. Prima o poi questa tecnica consentirà ai medici di intervenire più tempestivamente per salvare delle vite umane. Nel corso del tempo, forse, sarà possibile anche capire qual è la vera causa di quei problemi. Ma quando la vita di un neonato è in pericolo, sapere semplicemente che succederà qualcosa è molto più importante che capire esattamente perché. Le applicazioni nel campo della medicina sono un’ulteriore prova del fatto che scoprire certe correlazioni a partire da grandi quantità di dati può essere utile anche quando le cause restano ignote.

Nel febbraio del 2009 i ricercatori di Google pubblicarono sulla rivista Nature un saggio in cui dimostravano che era possibile prevedere le epidemie d’influenza stagionale usando gli archivi del motore di ricerca. L’articolo fece scalpore nel mondo della sanità. Ogni giorno Google gestisce più di un miliardo di ricerche solo negli Stati Uniti e le conserva tutte. I ricercatori avevano preso i cinquanta milioni di termini più cercati tra il 2003 e il 2008 e li avevano confrontati con i dati storici sull’inluenza dei Centri per la prevenzione e il controllo delle malattie (Cdc), un’agenzia della sanità pubblica statunitense. I ricercatori volevano capire se fosse possibile correlare l’aumento della frequenza di certe ricerche in una particolare area geograica con i dati dei Cdc sulle epidemie d’influenza. I centri per la prevenzione registrano le visite effettuate negli ospedali e negli ambulatori di tutti gli Stati Uniti, ma pubblicano le informazioni a distanza di una settimana o due, un’eternità nel caso di una pandemia. Il sistema di Google, invece, funziona in tempo reale.

Google non pretendeva di sapere quali ricerche si sarebbero dimostrate più utili. Aveva semplicemente fatto passare tutti i termini attraverso un algoritmo che valutava la loro correlazione con le epidemie. Poi aveva cercato di combinarli per vedere se riusciva a migliorare il modello. Alla fine, dopo aver fatto quasi mezzo miliardo di calcoli con quei dati, aveva individuato 45 termini, espressioni come “mal di testa” e “naso che cola”, che mostravano una correlazione forte con i dati dei Cdc. Tutti e 45 i termini erano collegati in qualche modo all’influenza, ma con un miliardo di ricerche al giorno sarebbe stato impossibile per una persona indovinare quali potevano funzionare meglio e testare solo quelli. Inoltre i dati non erano perfetti: contenevano molti errori di ortografia e frasi incomplete. Ma l’enorme quantità di informazioni compensava abbondantemente quella confusione. I risultati, ovviamente, erano semplici correlazioni. Non dicevano niente sui motivi per cui qualcuno aveva effettuato una particolare ricerca: se lo aveva fatto perché era ammalato, perché aveva sentito qualcuno starnutire nell’ufficio accanto o perché si era preoccupato leggendo il giornale.

Il sistema di Google non può saperlo e non gli interessa. Anzi, sembra che nel dicembre del 2012 abbia perino sopravvalutato il numero di casi d’influenza negli Stati Uniti. Questo serve a ricordarci che le previsioni esprimono solo probabilità e non sono sempre giuste, soprattutto se i dati su cui si basano, come le ricerche su internet, cambiano continuamente e possono essere inluenzati da fattori esterni come i mezzi d’informazione. Tuttavia, i grandi insiemi di dati possono indicare la tendenza generale di un fenomeno, proprio come fa il sistema di Google. Molti esperti di tecnologia sono convinti che l’origine dei big data risalga alla rivoluzione digitale degli anni ottanta, quando la maggiore potenza dei processori e l’accresciuta capacità di memoria dei computer hanno reso possibile l’archiviazione e l’analisi di un numero sempre più alto di informazioni. Questo è vero solo in apparenza. I computer e internet sono stati sicuramente decisivi, perché hanno abbassato i costi della raccolta, dell’archiviazione, dell’elaborazione e della condivisione delle informazioni. Ma in fondo questa è solo una fase dell’eterno tentativo dell’umanità di comprendere e quantificare il mondo.

Per capire perché è così, basta guardare al passato. Studiare il sedere delle persone è l’arte e la scienza di Shigeomi Koshimizu, un professore dell’Istituto avanzato di tecnologia industriale di Tokyo. A pochi verrebbe in mente che il modo in cui stiamo seduti costituisce un’informazione, ma in effetti può esserlo. Quando una persona è seduta, i contorni del suo corpo, la sua postura e la distribuzione del peso possono essere quantificati. Koshimizu e i suoi collaboratori convertono i sederi in dati, misurando la pressione che esercitano in 360 punti attraverso dei sensori sistemati sul sedile di un’automobile e inserendo ogni punto su una scala da zero a 256. Il risultato è un codice digitale unico per ogni individuo. Durante un test il sistema è stato in grado di distinguere le persone all’interno di un gruppo con una precisione del 98%. Quella di Koshimizu non è una ricerca futile. Lo scienziato giapponese vuole adattare la tecnologia ai sistemi di antifurto per automobili. Un veicolo potrebbe accorgersi se al volante si è seduta una persona diversa dal suo proprietario e chiedere una password per avviare il motore. Trasformare la postura in dati può diventare un servizio importante e forse anche un affare redditizio. E la sua utilità potrebbe andare ben oltre l’obiettivo di scoraggiare i furti d’auto.

I dati potrebbero permettere di scoprire il rapporto tra la postura del guidatore e la sicurezza stradale, per esempio individuare certi cambiamenti di posizione prima di un incidente. Il sistema potrebbe anche essere in grado di sentire quando un guidatore si accascia perché è stanco e far scattare un allarme o frenare automaticamente. Koshimizu ha preso informazioni che non erano mai state trattate come tali e le ha trasformate in qualcosa di numericamente quantificabile, cioè le ha ‘datificate’. La datificazione non è la stessa cosa della digitalizzazione, che prende contenuti analogici come libri, film o fotografie e li converte in informazioni digitali. La datificazione prende tutti gli aspetti della vita e li trasforma in dati. Quando si comincia a datificare qualcosa, si può attribuire un nuovo valore alle informazioni. Nel 2012, per esempio, l’IBM ha ottenuto un brevetto per “aumentare la sicurezza dei fabbricati attraverso una tecnologia basata sulla computerizzazione delle superfici”, espressione tecnica per descrivere un pavimento sensibile al tocco, come lo schermo di un gigantesco smartphone. Un sistema simile aprirebbe diverse possibilità. Un pavimento sensibile al tocco potrebbe far accendere la luce in una stanza o aprire una porta per far entrare qualcuno. Potrebbe anche identificare le persone in base al peso, alla postura o al modo di camminare. Potrebbe accorgersi se qualcuno è caduto e non si è rialzato, cosa che sarebbe molto importante per gli anziani. I commercianti potrebbero sapere quanti clienti sono entrati nel loro negozio. Quando riusciremo a trasformare questo tipo di attività in dati che è possibile conservare e analizzare, potremo conoscere meglio il mondo, scoprire cose che prima non potevamo sapere perché non erano misurabili in modo così facile ed economico.

Ma l’uso delle grandi aggregazioni di dati influirà anche sui governi e sulla politica. Chi sarà in grado di gestire le informazioni avrà un vantaggio enorme quando si tratterà di favorire la crescita economica, fornire servizi pubblici o combattere guerre. Finora le applicazioni più interessanti sono state introdotte negli enti locali, dove è più facile accedere ai dati. Nell’ambito di un esperimento voluto dall’ex sindaco Michael Bloomberg, New York sta usando le informazioni per migliorare i servizi pubblici e abbassare i costi. Un esempio è il nuovo sistema di prevenzione degli incendi. Gli edifici suddivisi illegalmente hanno maggiori probabilità di prendere fuoco. Il comune riceve ogni anno 25mila denunce di edifici sovrafollati, ma dispone solo di duecento ispettori per i controlli. Una piccola équipe di analisti che collabora con il sindaco ha suggerito che i dati potrebbero contribuire a risolvere il problema. I tecnici hanno creato un database dei 900mila edifici della città, a cui hanno aggiunto le informazioni sulle anomalie nell’uso dei servizi, sul taglio dei servizi, sui mancati pagamenti, sulle chiamate alle ambulanze, sul tasso di criminalità locale, sulla presenza di roditori. Poi hanno confrontato il database con le denunce di incendi degli ultimi cinque anni, classificate in base alla gravità, nella speranza di trovare qualche correlazione.

Com’era prevedibile, i maggiori fattori di rischio erano il tipo di fabbricato e l’anno di costruzione. A sorpresa, però, i tecnici hanno scoperto che la richiesta di un’autorizzazione a ricoprire la facciata di mattoni si correlava con una minore probabilità di incendi gravi. Sfruttando tutti questi dati, l’équipe ha creato un sistema che permetteva al comune di stabilire quali denunce di sovraffollamento richiedevano un intervento immediato. Nessuna delle caratteristiche degli edifici che avevano registrato era causa immediata di incendi, ma era in correlazione con un aumento o una diminuzione del rischio. Questa scoperta si è dimostrata utile. In passato gli ispettori che visitavano i fabbricati emettevano ordini di sgombero nel 13% dei casi, ora la percentuale è salita al 70. Naturalmente le compagnie di assicurazione usano da tempo metodi simili per calcolare il rischio di incendi, ma si basano principalmente su pochi elementi, che di solito sono quelli legati alla possibilità che scoppino incendi. Con il suo sistema, invece, il comune di New York ha preso in considerazione molte più variabili, comprese alcune che a prima vista non sembravano collegate al rischio di incendi. E il suo modello è più economico e veloce, dato che sfrutta informazioni già esistenti. Ma, soprattutto, le previsioni basate sulle grandi quantità di dati probabilmente colgono più spesso nel segno.

I big data stanno anche contribuendo a rendere più trasparente la democrazia. Intorno all’idea dell’accessibilità ai dati (open data) è nato un movimento che va oltre le norme sulla libertà d’informazione ormai adottate da quasi tutti i paesi sviluppati. I suoi sostenitori chiedono ai governi di rendere facilmente accessibili al pubblico le grandi quantità di dati di cui dispongono. Gli Stati Uniti sono stati tra i primi a farlo, con il sito data.gov, e molti altri paesi hanno seguito il loro esempio. Ma pur rendendo più facile l’accesso ai dati, i governi devono proteggere i cittadini dal morboso sfruttamento commerciale di questa possibilità. Aziende come Google, Amazon e Facebook, ma anche ‘mercanti di dati’ meno noti come Acxiom ed Experian, stanno accumulando enormi quantità di informazioni su tutto e su tutti. Le leggi antitrust ci difendono dai monopoli di certi beni e servizi come i software e i mezzi d’informazione, perché le loro dimensioni sono relativamente facili da calcolare. Ma come possono applicare queste norme al mercato dei dati, che è così difficile da definire e in continua trasformazione? La privacy sta diventando un problema sempre più serio, perché la maggiore difusione dei dati riguarda anche le informazioni private, un rovescio della medaglia che sembra impossibile eliminare con le leggi e le tecnologie attuali.

La regolamentazione delle grandi raccolte di dati potrebbe anche diventare un terreno di scontro tra paesi. I governi europei stanno cercando di capire se Google vìola le norme antitrust e sulla privacy. Facebook potrebbe diventare oggetto di controlli simili in tutto il mondo, perché possiede una grande quantità di dati su singoli individui. I diplomatici dovranno prepararsi a discutere se il lusso di informazioni può essere equiparato al libero mercato. In futuro, quando la Cina censurerà le ricerche su internet, forse sarà accusata non solo di soffocare la libertà d’espressione, ma anche di imporre delle barriere commerciali. Indubbiamente i governi dovranno difendere i loro cittadini e le aziende dai pericoli legati ai grandi insiemi di dati. Ma c’è un altro possibile aspetto negativo: quello che diventino un Grande fratello. In tutti i paesi, soprattutto in quelli meno democratici, i dati aggravano la disparità di potere che già esiste tra governo e cittadini. Questa disparità potrebbe crescere al punto da portare a un autoritarismo basato sui dati, come hanno immaginato gli autori del film di fantascienza Minority report.

La storia si svolge in un futuro non troppo lontano in cui il personaggio interpretato da Tom Cruise guida un’unità di polizia che sfrutta le premonizioni di individui dotati di poteri extrasensoriali per individuare le persone che stanno per compiere un reato. La trama ruota intorno alle ovvie possibilità di errore del sistema e, soprattutto, alla negazione del libero arbitrio. Anche se l’idea di individuare potenziali malfattori prima che commettano un crimine sembra fantasiosa, i grandi insiemi di dati hanno permesso ad alcune istituzioni di provarci sul serio. Nel 2007 il dipartimento per la sicurezza interna degli Stati Uniti ha avviato il progetto di ricerca Fast (Future attribute screening technology), per individuare potenziali terroristi analizzando i parametri vitali, il linguaggio del corpo e altri dati fisiologici. In molte città, tra cui Los Angeles, Memphis, Richmond e Santa Cruz, le forze di polizia hanno adottato un software che analizza i dati sui reati per prevedere dove e quando potrebbero esserne commessi altri. Per il momento questi sistemi non identificano specifici individui come sospetti. Ma quella è la direzione in cui si sta andando.

Forse un giorno riusciranno a prevedere quali ragazzi hanno maggiori probabilità di rubare nei negozi. E potrebbero esserci buoni motivi per essere così specifici, soprattutto se si tratta di prevenire comportamenti sociali negativi. Mettiamo il caso che un assistente sociale possa sapere con il 95% di probabilità quali adolescenti rischiano di restare incinte o quali ragazzi abbandoneranno la scuola. La tentazione di pretendere un intervento sarebbe forte. Ma potrebbe apparire come una punizione decisa prima ancora che sia successo qualcosa, violando il libero arbitrio. Un’altra cosa preoccupante è quello che potrebbe succedere se un governo fosse troppo fiducioso nel potere dei dati. In un libro del 1999, ‘Seeing like a state’, l’antropologo James Scott dimostra come i governi, nella loro smania di raccogliere dati, finiscono per rendere insopportabile la vita delle persone: riorganizzano i quartieri sulla carta senza sapere niente della gente che ci vive; usano i dati sui raccolti per decidere se collettivizzare l’agricoltura, senza sapere niente di coltivazioni; pretendono di cambiare i modi di interagire imperfetti e naturali delle persone per piegarli alle loro necessità, a volte solo per soddisfare una smania di ordine.

Questa malriposta fiducia nei dati ci si può ritorcere contro. Le organizzazioni cedono al fascino illusorio dei dati e attribuiscono ai numeri più significato di quello che hanno. Ce l’ha insegnato la guerra in Vietnam. All’epoca il segretario alla difesa Robert McNamara era un maniaco dell’uso delle statistiche per valutare i progressi del conflitto. Lui e i suoi colleghi erano fissati con il numero di nemici uccisi. Basata sulle notizie inviate dai comandi e pubblicata quotidianamente sui giornali, la conta dei morti diventò il dato che definì un’epoca. Per i sostenitori del conflitto era la prova che si stavano facendo dei progressi, per i suoi oppositori dimostrava che era immorale. Ma quelle statistiche rivelavano poco della complessa realtà della guerra. Le cifre erano spesso imprecise e di scarsa utilità per misurare i successi sul campo. Anche se è importante imparare dai dati, il buon senso dovrebbe consigliarci di non basare tutto sulle cifre e sulle tabelle.

I grandi insiemi di dati cambieranno il nostro modo di vivere. Le correlazioni stanno mettendo in discussione la visione del mondo basata sull’importanza della causalità. Possedere la conoscenza, che un tempo significava capire il passato, sta diventando un modo per prevedere il futuro. I problemi posti dai big data non saranno facili da risolvere. Probabilmente costituiranno solo una nuova fase dell’eterno dibattito su quale sia il modo migliore per capire come funziona il mondo. Ma sicuramente i dati contribuiranno a risolvere molti dei problemi più urgenti del pianeta. Per affrontare il cambiamento climatico sarà necessario analizzare quelli sull’inquinamento. Gli ormai onnipresenti sensori forniranno una gran quantità di dati che permetterà ai climatologi di creare modelli sempre più precisi per prevedere gli sviluppi del riscaldamento globale. Nel frattempo, per migliorare l’assistenza sanitaria e abbassarne i costi, sarà necessario automatizzare alcuni compiti che oggi richiedono il giudizio umano, ma che potrebbero essere svolti da un computer, come effettuare biopsie o scoprire infezioni prima che se ne manifestino i sintomi.

In definitiva, i grandi dati segnano il momento in cui ‘la società dell’informazione’ mantiene finalmente la promessa implicita nel suo nome. I dati stanno assumendo un ruolo centrale. Tutti quei bit digitali possono essere usati in tanti nuovi modi e per nuovi scopi. Ma questo richiede un modo di pensare diverso e può mandare in crisi individui e istituzioni. In un mondo in cui i dati condizionano sempre più le decisioni, quanto spazio resterà per le persone, per le loro intuizioni o per andare controcorrente? Se tutti faranno appello ai dati, forse l’unica cosa a fare la diferenza sarà l’imprevedibilità: l’elemento umano, l’istinto, la propensione al rischio, gli eventi accidentali e perfino gli errori. Se sarà così, probabilmente bisognerà riservare uno spazio agli esseri umani, al loro intuito e al loro buon senso per impedire che siano tagliati fuori dai dati e dalle macchine. I dati ci permettono di sperimentare più rapidamente e di esplorare nuove strade. Ma a volte la scintilla di un’idea nasce da qualcosa che i numeri non dicono. Non c’è quantità di dati che possa confermarla o convalidarla, perché ancora non esiste. I dati possono essere una risorsa e uno strumento. Servono a informare non a spiegare, possono aiutare a capire, ma anche provocare fraintendimenti. Per quanto possano sembrare potenti, il loro fascino non deve accecarci. Dobbiamo usare questa tecnologia nella piena consapevolezza della sua forza ma anche dei suoi limiti.