Nel 2025 conosceremo il Dna di un miliardo di persone. Da tutte queste informazioni può derivare un salto di qualità nel metodo scientifico, grazie alla creazione di nuovi algoritmi

Il primo genoma umano è stato sequenziato per intero nel 2001. Dodici anni dopo, nel 2012, i Dna disposti in ordine per intero erano nell’ordine del migliaia. Poi in Islanda la DeCode Genetics ha raccolto i dati genetici completi di 15.000 cittadini, riuscendo a elaborare per ciascuno il rischio di contrarre malattie come il diabete, l’Alzheimer e, per le donne, il cancro al seno. Nel Regno Unito il Genome project lanciato nel 2014 conta di sequenziare il genoma di 100.000 sudditi di Sua Maestà britannica. Mentre gli Stati Uniti, con la Precision medicine initiative, e la Cina, con il progetto del Bgi di Shenzhen contano ciascuno di mettere insieme, una via l’altra, i 3 miliardi di basi del Dna di un milione di loro cittadini. La progressione è inarrestabile. Tanto che la rivista Nature prevede che, entro il 2025, i biologi avranno sequenziato e potranno comparare il Dna di un miliardo di persone in tutto il mondo. E dovranno, pertanto, gestire una quantità senza precedenti di informazioni: probabilmente 40 petabytes (ovvero 40 milioni di gigabytes) per anno.
Ma non c’è solo il genoma. Come dimostra il fatto che in Islanda la DeCode Genetics ha già raccolto e comparato dati relativi alla storia medica di 150.000 isolani. In futuro avremo banche dati con informazioni le più varie, relative a migliaia, milioni, miliardi di persone. A puro titolo di esempio ricordiamo che l’Ebi, l’European bioinformatics institute, un centro di ricerca dell’European molecular biology laboratory (Embl) che ha sede presso il Wellcome trust genome campus di Hinxton, nei pressi di Cambridge, in Gran Bretagna, tra il 2008 e il 2010, ha quadruplicato la quantità bytes accumulati: passando da 1 a 4 petabytes. Una delle più grandi librerie del mondo, la Library del Congresso degli Stati Uniti, a Washington, con i suoi 28 milioni di libri e i suoi 50 milioni di manoscritti conserva una quantità di informazione pari a circa 20 terabytes (20.000 gigabytes). In pratica è come se la biblioteca virtuale dell’Ebi già nel 2010 contenesse 200 biblioteche del Congresso degli Stati Uniti. Ed è come se il mondo intero si accingesse ad aggiungere ogni anno 2.000 Library del Congresso degli Stati Uniti alla sua banca di dati biomedici. La verità è, come sostiene Nature in un recente dossier, che la biomedicina sarà (è già) dominata dai big data. E che questa enorme quantità di dati modificherà (sta modificando) nel profondo la scienza medica. Con ricadute difficili da immaginare per la farmaceutica e più in generale per la clinica medica. E per chi avesse qualche dubbio, basterà forse a dissiparli il fatto che già adesso grandi aziende stanno investendo miliardi di dollari nei big data. E non c’è solo la biomedicina. Discorsi analoghi si possono fare per molti altri settori della scienza. Per dirne una, un solo esperimento con Lhc al Cern di Ginevra raccoglie dati per 10 petabytes (500 Library del Congresso). Per contenerli e gestirli tutti, questi dati, è necessario distribuirli in svariate decine di megabanche sparse per il mondo.
E non è finita. Da qui a qualche anno lo Square kilometre array (Ska), un grande radiotelescopio distribuito su migliaia di chilometri quadrati tra l’Africa del Sud e l’Australia, raccoglierà 1.000 di petabytes di dati al giorno. Il che significa che ogni 24 ore quel grande orecchio carpirà all’universo una quantità di informazioni pari a quelle contenute in 50.000 Library del Congresso americano.
Non c’è dubbio: i big data cambieranno (stanno già cambiando) la scienza intera. Qualcuno obietterà: ma l’informazione, di per sé, non è conoscenza. E, dunque, i big data non fanno scienza. Il nostro critico ha ragione. O, almeno, avrebbe avuto ragione anche in passato. Ma oggi, sostengono Tony Hey, Stewart Tansley e Kristin Tolle, in un libro, The Fourth Paradigm. Data-Intensive Scientific Discovery, pubblicato dalla Microsoft nel 2009, il salto di quantità nella produzione scientifica di dati è tale da realizzare di per sé un salto di qualità. L’informazione raccolta a scala così grande è, o si trasforma facilmente in, nuova conoscenza. Per questo hanno annunciato l’avvento di un “quarto paradigma” nella storia della scienza. Un nuovo modo di estrarre conoscenza dal mondo naturale attraverso l’analisi automatica dei big data.
In realtà, il primo a parlare di un “quarto paradigma” associato ai big data è stato Jim Gray, un informatico che ha collaborato a lungo con la Microsoft nel tentativo di convincere il mondo intero che siamo entrati in una nuova era epistemologica. Non è un visionario, Jim Gray. Ha vinto, infatti, il premio Turing assegnato ai grandi matematici e conviene, dunque, ascoltarlo.

come si finanzia isis

 

Continua sul numero 44 di Left in edicola dal 21 novembre

SOMMARIO ACQUISTA