28 gennaio 2017

Il problema dei big data che affligge le neuroscienze

Le numerose ricerche che mirano a mappare il cervello, da quello del moscerino della frutta a quello umano, producono enormi quantità di dati, che tuttavia pongono numerosi problemi di gestione. I ricercatori stanno cercando nuovi metodi per comprimere questi dati in modo automatico, confrontare tecniche di imaging diverse e condividere i risultati con i colleghi di tutto il mondodi Esther Lanhuis/NATURE

neuroscienze computer science

Con l'avanzare dei grandi progetti di mappatura del cervello, quello di Taiwan potrebbe sembrare di poco conto. Lì i ricercatori stanno studiando l'umile moscerino della frutta, ingegnerizzando il suo cervello da immagini di singoli neuroni. I loro sforzi hanno prodotto mappe 3D di circuiti cerebrali con incredibile dettaglio. I ricercatori hanno bisogno solo di un mouse per computer e un browser web per visualizzare da vicino singole cellule oppure allargare lo sguardo su reti intrecciate di fasci nervosi. Gli schemi dei circuiti sembrano fili colorati su un arazzo, e sono abbastanza chiari da mostrare quali ammassi di cellule controllino specifici comportamenti. Stimolando uno specifico circuito neurale, i ricercatori possono segnalare a un moscerino di sbattere la sua ala sinistra o oscillare la testa da un lato all'altro, un'impresa che ha attratto una folla di curiosi in occasione dell'annuale convegno della Society for Neuroscience tenutosi a San Diego, in California, nello scorso mese di novembre.

Ma anche per una creatura così piccola, al gruppo è servito un intero decennio per ottenere immagini di 60.000 neuroni, a una velocità di 1 gigabyte per cellula, spiega il leader del progetto Ann-Shyn Chiang, neuroscienziato della National Tsing Hua University di Hsinchu City, a Taiwan, non raggiungendo nemmeno la metà delle cellule nervose del cervello di Drosophila. Usando lo stesso protocollo per ottenere le immagini degli 86 miliardi di neuroni nel cervello umano, occorrerebbero 17 milioni di anni, ha riferito Chiang al convegno.

Il problema dei big data che affligge le neuroscienze — L'imaging a risonanza magnetica a diffusione del cervello. (Credit: Van Wedeen/Martinos Center for Biomedical Imaging/Harvard Medical School)

Altre tecnologie sono più abbordabili. A luglio 2016, un gruppo internazionale ha pubblicato una mappa dello strato esterno e ripiegato del cervello umano, la corteccia cerebrale. Molti ricercatori considerano il risultato come la più dettagliata mappa della connettività del cervello umano realizzata

finora. Tuttavia, anche alla massima risoluzione spaziale (1 millimetro cubo), ciascun voxel - il più piccolo elemento distinguibile di un oggetto 3D - contiene decine di migliaia di neuroni. Siamo quindi molto lontani dalle connessioni neurali mappate con una risoluzione di una singola cellula nel moscerino della frutta.

"Nel caso aveste pensato che l'anatomia del cervello fosse un problema risolto, vi assicuriamo che non è così", dice Van Wedeen, neuroscienziato del Massachusetts General Hospital di Charlestown e principal investigator dello Human Connectome Project (HCP), un consorzio globale finanziato dal governo degli Stati Uniti che ha pubblicato la mappa del cervello.

Così va il mondo della neurobiologia, dove i big data raggiungono dimensioni veramente gigantesche. Nonostante i progressi nelle infrastrutture della computazione e nella trasmissione di dati, i neuroscienziati continuano a confrontarsi con la loro versione della rivoluzione dei big data che ha investito il campo della genomica decenni fa.

Ma la mappatura del cervello e il sequenziamento del DNA sono due cose molto diverse. Un singolo insieme di dati di neuroimaging si può misurare in terabyte, due o tre ordini di grandezza più grande di un genoma completo di mammifero. Mentre i genetisti sanno quando hanno finito la decodifica di un tratto di DNA, i ricercatori che mappano il cervello non sanno esattamente dove fermarsi, e devono confrontarsi con un insieme di immagini e dati elettrofisiologici molto più ricco, discutendo nel frattempo su quale sia il metodo migliore per raccogliere, condividere e interpretare i dati. Via via che sviluppano strumenti per condividere e analizzare serie di dati in continua espansione nelle neuroscienze, gli scienziati però stanno arrivando a una conclusione condivisa: carpire i segreti del cervello richiede uno sforzo comune.

Gli scienziati possono mappare il cervello a più livelli. L'HCP cerca di mappare la connettività del cervello a scala macroscopica, utilizzando l'imaging a risonanza magnetica (MRI). Alcuni laboratori stanno mappando tracciati neurali a livello microscopico, mentre altri, come Chiang, tracciano ogni sinapsi e ramificazione neurale con precisione nanometrica. Altri ancora stanno lavorando per sovrapporre i modelli di espressione genica, le misurazioni elettrofisiologiche o altri dati funzionali su queste mappe. Gli approcci usano metodi diversi, tutti però creano grandi insiemi di dati (si veda il grafico Big data by the numbers).

Quanto grandi?
In parte, ciò deriva dal fatto che il cervello, non importa di quale specie, è grande e interconnesso. Ma deriva anche dalle notevoli dimensioni delle cellule. L'estensione principale di un neurone di mammifero - il suo assone - può essere 200.000 volte più lunga dei suoi rami più piccoli, chiamati dendriti. Se si costruisse un modello in scala con dendriti della lunghezza di spaghetti, il neurone stesso sarebbe lungo più di 330 metri, cioè più di tre campi da calcio.

In laboratorio, i ricercatori mappano ogni neurone tracciando le sue migliaia di proiezioni attraverso la sovrapposizione di centinaia di immagini di sezioni cerebrali. La microscopia basata sulla luce permette una risoluzione di 0,25-0,5 micrometri, sufficiente per rintracciare il corpo principale di un singolo neurone. Ma per rilevare le sinapsi - le minuscole giunzioni di segnalazione attraverso cui fluiscono i segnali elettrici o chimici - è richiesta la risoluzione nanometrica della microscopia elettronica. Una risoluzione più elevata significa campi visivi più piccoli e così più immagini. E più immagini significano più dati.

"Non abbiamo più a che fare con megabyte, e neppure con gigabyte", afferma Arthur Toga, che guida il Laboratorio di Neuro Imaging della University of Southern California a Los Angeles. "Abbiamo a che fare con terabyte. Solo spostarli da un posto a un altro è un problema". Due terabyte di dati riempirebbero il disco rigido di molti computer desktop.

Il gruppo di di Chiang che lavora sul moscerino della frutta ha passato al setaccio terabyte di dati di immagini per ricostruire 1000 cellule nervose, meno dell'uno per cento del cervello di Drosophila. E per mappare la corteccia cerebrale umana, i ricercatori dell'HCP hanno analizzato sei terabyte di dati di MRI ottenuti da 210 adulti in salute, dice Kamil Ugurbil, co-principal investigator dell'HCP presso l'Università del Minnesota a Minneapolis. I laboratorio possono scaricare i dati dal sito web del progetto e, per i set di dati più grandi, ordinare i dischi rigidi da otto terabyte a 200 dollari l'uno.

Anche gli studi di elettrofisiologia sono diventati impegnativi dal punto di vista computazionale. Oggi, i ricercatori registrano di routine centinaia di neuroni alla volta. "Presto saranno migliaia; tra cinque anni, centinaia di migliaia", dice Alexandre Pouget, neuroscienziato dell'Università di Ginevra, in Svizzera. "Questo è il tipo di balzo a cui andremo incontro".

E questi dati sono disponibili in diversi formati. L'attività cerebrale può apparire come picchi in mezzo a scarabocchi sui tracciati elettrofisiologici, o come lampi verdi di ioni calcio in movimento dentro e fuori i neuroni. Su quelle immagini verdi, altre tonalità fluorescenti possono indicare quali neuroni stanno inviando segnali e quali li stanno ricevendo. E i ricercatori possono raccogliere questi dati mentre i soggetti cercano di orientarsi in un labirinto, trovano cibo o guardano puntini lampeggianti sullo schermo.

"Registrando 20 minuti di attività neuronale in un cervello di topo, si producono circa 500 petabyte di lampeggi intermittenti, in cui l'attivazione delle cellule nervose è rappresentata da cambiamenti nei valori di pixel", dice Florian Engert, neuroscienziato della Harvard University a Cambridge. "Ma nessuno si preoccupa dei pixel. Alle persone interessano quali neuroni si connettono a quali altri, e quando scaricano”. Isolando ogni neurone e assegnando una marca temporale agli eventi di scarica, dice Engert, è possibile ridurre l'insieme di dati a un più gestibile valore di 500 gigabyte".

"Il contenuto informativo di dati grezzi è per lo più irrilevante", dice Engert, il quale fa un'analogia con il sequenziamento del genoma: prima di avere a disposizione i sequenziatori automatici, i ricercatori leggevano il DNA in forma di schemi ordinati di bande su gel di poliacrilammide esposti a una pellicola per raggi X. Ora, gli algoritmi informatici convertono queste bande in sequenze di G, A, T e C, le basi che compongono i filamenti di DNA, e nessuno salva le immagini originali. Allo stesso modo, spiega Engert, i neuroscienziati dovrebbero "concentrarsi non sulla cura e sulla distribuzione dei dati grezzi, ma piuttosto sullo sviluppo di algoritmi" per codificare le informazioni usando meno bit. Idealmente, dice, questi algoritmi permetterebbero ai microscopi di comprimere i dati oltre che raccoglierli.

L'idea è ragionevole, ma potrebbe rivelarsi difficile da attuare nel caso del cervello, in parte a causa della matematica. Per determinare la struttura delle proteine usando la cristallografia a raggi X, per esempio, c'è un "modello teorico veramente pulito" - una serie di equazioni che mettono in relazione le specifiche caratteristiche di una proteina con le caratteristiche quantificabili nella sua figura di diffrazione, dice Greg Farber, che gestisce l'archivio dati del National Institute of Mental Health (NIMH) degli Stati Uniti a Rockville, nel Maryland. Per calcolare la struttura 3D, "basterebbe misurare l'intensità delle macchie. Non è necessario conservare i molti, molti altri pixel di dati presenti su quella pellicola", dice.

I neuroscienziati non hanno alcun modello di confronto, nessuna mappa che associa connettività e attività neurali con comportamento, memoria o cognizione. Data l'immensa complessità del cervello, dice Farber, il problema "non è che abbiamo troppi dati, ma che non abbiamo quasi a sufficienza per la complessità che stiamo cercando di affrontare".

La questione dei dati "non sufficienti" è condivisa da Julie Korenberg, neuroscienziata che studia i disturbi dello sviluppo neurologico all'Università dello Utah a Salt Lake City. Un'ipotesi comune di queste malattie è che i cambiamenti nei geni alterano l'espressione di proteine in alcuni neuroni e di conseguenza anche le circuitazioni cerebrali, causando deficit comportamentali caratteristici. La risonanza magnetica è in grado di rilevare i cambiamenti neuroanatomici evidenti, come aree cerebrali che diventano più grandi. Ma i cambiamenti più sottili richiedono approcci ad alta risoluzione, come la microscopia confocale o elettronica. Tuttavia, questi dati di imaging sono rappresentati in formati diversi, e non c'è modo di passare da uno all'altro: una volta che gli scienziati hanno "zoomato" fino al livello delle singole cellule, non possono tornare indietro per osservare quelle cellule nel contesto del cervello intero.

Costruire un ponte
Negli ultimi 17 anni, Korenberg e colleghi hanno lavorato per colmare questa lacuna, mappando il sistema limbico dei macachi. Questi primati hanno sei miliardi di neuroni nel cervello, contro gli 86 miliardi del cervello umano. Ma tra i diversi modelli di ricerca, il macaco è il nostro parente più vicino, molto più vicino di un topo o di un moscerino della frutta.

Il gruppo di Korenberg sta sviluppando un sistema di coordinate 3D per allineare i vari tipi di dati di neuroimaging nel cervello del macaco, dalla connettività del cervello intero nella MRI ai dati confocali di singole cellule e, per alcune aree, alla risoluzione subcellulare della microscopia elettronica. Stanno creando "un sistema che permette di scegliere un punto su una certa immagine e di guardare lo stesso punto con un'altra risoluzione", afferma Janine Simmons, che dirige l'Affect, Social Behavior and Social Cognition Program dell'NIMH, che finanzia in parte il progetto di Korenberg. E' simile a Google Earth, sottolinea Simmons, per esempio, è possibile spostare il valore dello zoom da 40x direttamente a 1x, senza passa necessariamente per le scale d'ingrandimento intermedie.

La mappatura dell'intero sistema limbico del macaco, che usa una lente confocale da 20x, richiederà enormi insiemi di dati: oltre 600 terabyte per animale. Finora, il gruppo ha raccolto circa 100 terabyte di dati, accessibili da un dispositivo di archiviazione collegato alla rete che associa i server di 30 terabyte locali con una cloud. I ricercatori possono affrontare alcuni problemi usando serie di dati ridimensionati e un buon computer portatile, aggiunge Korenberg. Ma la manipolazione di insiemi di dati confocali 3D di grandi dimensioni richiede speciali workstation, e anche così il rendering di una singola immagine è lento.

Tuttavia, il lavoro, che ancora dev'essere pubblicato, "potrebbe essere un importante passo in avanti nel campo della connettomica", dichiara Patrick Hof, neuroanatomista della Mount Sinai School of Medicine di New York, che ha già collaborato con Korenberg. Per esempio, dice Korenberg, i dati potrebbero aiutare gli scienziati a collegare i geni che sembrano importanti in alcuni disturbi mentali, come schizofrenia o autismo, a specifiche anomalie dei circuiti cerebrali.

Via via che spingono sempre più in là i limiti del possibile, i ricercatori creano canali computazionali per gestire il flusso di lavoro sempre più imponente, e nuovi strumenti, come Thunder e BigDataViewer, per condividere e visualizzare i dati risultanti. Ma ci vorrà più dello sviluppo di uno strumento per alleggerire le pene dei neuroscienziati. È necessario anche un cambiamento culturale. "È difficile convincere le persone a lasciar perdere i propri dati", dice Russell Poldrack, psicologo della Stanford University, in California, che usa le tecniche di neuroimaging per studiare l'apprendimento e la memoria. "Potrebbe essere un cambiamento generazionale: rispetto alla mia generazione, i millennial sono molto più inclini a condividere codici e dati". Poldrack teme che le migliori menti potrebbero lasciare questo campo di ricerca per la frustrazione di una scienza "non allineata con i valori che pensano dovrebbe avere".

Ma, lentamente, gli atteggiamenti stanno cambiando: prima quelli verso i programmi, poi quelli verso i dati. I laboratori di neuroimaging investono molto tempo a scaricare e installare lo stesso programma in versione beta, "passando attraverso diversi malfunzionamenti del software e colli di bottiglia nel processo di calcolo, scrivendo righe di codice ridondanti e implementando le loro soluzioni di gestione dei dati per affrontare gli stessi problemi", dice David Grayson, studente di PhD in neuroscienze all'Università della California a Davis. Quel che è peggio è che molti compiti che non sono di ricerca sono attribuiti a studenti, dottori di ricerca e giovani ricercatori, che tendono a essere esperti di tecnologia, ma "non hanno firmato un contratto da amministratori di sistema", aggiunge Grayson.

L'International Neuroinformatics Coordinating Facility (INCF), organizzazione no profit con sede a Stoccolma, è stata creata nel 2005 per sviluppare e promuovere standard, strumenti e infrastrutture per i neuroscienziati di tutto il mondo. Pochi anni dopo, gli Stati Uniti hanno lanciato la Neuroimaging Informatics Tools and Resources Clearinghouse (NITRC), una piattaforma per la condivisione di strumenti di calcolo per il neuroimaging. All'epoca "nessuno pensava minimamente alla condivisione dei dati, ma solo al software", dice Nina Preuss, program manager della NITRC, con sede a Washington.

La svolta è arrivata a fine 2009, quando i ricercatori del Nathan S. Kline Instituto for Psychiatric Research a Orangeburg, nello Stato di New York, hanno pubblicato sulla NITRC i dati delle scansioni di risonanza magnetica funzionale (fMRI) di oltre 1200 volontari in condizioni di riposo, raccolti per il 1000 Functional Connectomes Project (FCP). Erano solo dati grezzi, ma nel giro di poche settimane gli utenti NITRC avevano scaricato i set di dati 700 volte. "C'era un'enorme domanda insoddisfatta per poter scaricare liberamente e studiare i dati", spiega Preuss.

Il numero di download è salito a migliaia una volta che gli autori hanno ripulito i dati fMRI permettendo la ricerca al loro interno. Dopo la pubblicazione dei dati, sono stati registrati mille download dell'articolo nelle prime due settimane. Nello stesso anno, è stato anche pubblicato il primo articolo di autori indipendenti, che avevano scaricato i dati fMRI del consorzio per le proprie analisi, ma non erano stati coinvolti nella raccolta.

Da quando, a marzo 2013, l'HCP ha reso disponibile la sua prima serie di dati, decine di laboratori hanno pubblicato articoli che analizzavano i dati del progetto. In totale, l'HCP ha pubblicato circa 50 terabyte di dati di imaging cerebrale di oltre 1000 persone, dice Jennifer Elam, coordinatrice del progetto presso la Washington University School of Medicine di St. Louis, nel Missouri.

Tuttavia, pochi progetti su scala più ridotta hanno pubblicato i loro dati, forse perché non ne hanno. Poche riviste richiedono che tutti i dati di supporto ai risultati pubblicati siano messi a disposizione della comunità ma, in linea di massima, la condivisione dei dati non è incentivata. Non c'è “alcuna spinta forte a fare un bel po' di lavoro extra", dice Grayson.

Il modello accademico convenzionale non aiuta. I ricercatori tipicamente sviluppano ipotesi e lavorano sulle proprie idee indipendentemente dai pari del loro gruppo. In un contesto del genere, la ricerca non mette insieme le persone, ma le separa, dice Hongkui Zeng, dell'Allen Institute for Brain Science di Seattle, nello Stato di Washington. "È necessario distinguersi. Per stabilire la propria identità nel campo, si deve fare qualcosa di diverso dagli altri".

Zeng è entrato a far parte dell'Allen Institute nel 2006, alla ricerca di un cambiamento culturale: l'istituto definisce obiettivi quinquennali ambiziosi che richiedono ai gruppi di lavorare in modo collaborativo e sistematico per portare avanti un progetto completo e non frammentario, come invece può accadere nei laboratori individuali.

Quando si tratta di cervello, "completo" può essere un bersaglio stimolante. Ma anche così, l'insieme degli strumenti è quello delle neuroscienze. Durante il suo discorso alla Society for Neuroscience, Chiang ha sottolineato che ci sono voluti dieci anni per mappare metà del cervello del moscerino. Lavorando con i fisici dell'Academia Sinica di Taiwan, la squadra di Chiang ha iniziato a usare una tecnica chiamata tomografia a raggi X di sincrotrone per aumentare in modo drastico la velocità di acquisizione dei dati.

"Ci sono voluti meno di dieci minuti per l'immagine di un cervello di moscerino che contiene migliaia di singoli neuroni colorati con il metodo di Golgi", dice Chiang, il cui gruppo sta ora tentando di applicare la tecnica a topi e maiali. Gli scienziati hanno in programma d'integrare immagini confocali e a raggi X su un'unica piattaforma da cui gli scienziati possono scaricare i dati. "Con l'imaging a raggi X di sincrotrone, la mappatura del connettoma umano con una risoluzione del singolo neurone è un obiettivo più realistico", dice Chiang. Resta da vedere quanto sarà facile integrare le mappe con altri dati.

(L'originale di questo articolo è stato pubblicato su Nature il 25 gennaio 2017. Traduzione ed editing a cura di Le Scienze. Riproduzione autorizzata, tutti i diritti riservati)

Le Scienze

Il problema dei big data che affligge le neuroscienze

Il mio libro

Crea, stampa e pubblica il tuo libro