La velocità con cui si generano i dati di genomica sta aumentando con un tasso più alto della legge di Moore, pertanto significativamente superiore all’ammodernamento della capacità trasmissiva e di immagazzinamento nelle rete per dati. Di conseguenza, gli utenti sperimentano difficoltà crescenti nella gestione dei dati di genomica, al punto tale che a volte i dati sono traferiti mediante soluzioni alternative alle reti. Ad esempio, il Beijing Genomics Institute, che elabora attualmente 2.000 genomi umani al giorno, invece di trasmetterli attraverso Internet o altre reti, invia hard-disk contenenti i dati tramite corriere espresso [8] Per avere un’idea della serietà del problema, supponiamo che un ricercatore voglia determinare le caratteristiche di un genoma rispetto ad una specifica malattia distribuita in diversi paesi del mondo. In tal caso, non solo il numero di file di genoma da gestire ed analizzare diventa estremamente grande, ma anche ogni insieme di dati che riguarda l’individuo stesso è significativamente grande, dell’ordine delle decine di GB. L’elaborazione del genoma, in particolare quello umano, in genere procede attraverso l’esecuzione di una pipeline di pacchetti software. Esistono diversi tipi di pipeline, ognuno specifico per esigenze di ricerca o diagnostiche [1]. I file di ingresso delle pipeline sono sia file di genoma, sia risultati di elaborazioni precedenti, detti annotazioni, sia il modello di riferimento del genoma umano [6] utilizzato per eseguire l’allineamento dei dati [5], [6], [7]. Anche se il genoma di un paziente può essere immagazzinato in un data base locale, tutti gli altri file, che si trovano in database localizzati fisicamente e geograficamente su server diversi, devono essere scaricati dalla rete. La dimensione globale di questi file è variabile, da pochi GB a decine di GB. Solo quando tutti i file sono stati trasferiti, allora può iniziare l’elaborazione dei dati, che può anche durare ore. In sostanza, il tempo totale chiesto per avere i risultati di una richiesta di elaborazione potrebbe essere superiore alle 24 ore. Nella prospettiva di una veloce ed imminente diffusione del sequenziamento e dell’utilizzo dei dati di genomica ai fini diagnostici, questa problematica pone almeno due aspetti critici. La minimizzazione dei tempi di consegna del servizio, nel caso in cui si debba trattare ad esempio la diagnosi di una malattia grave, e la gestione del traffico dati in rete. Mentre in un numero relativamente piccolo di prestigiose organizzazioni i ricercatori hanno a disposizione potenti strutture di calcolo parallelo [3], in generale questo non è vero per centri medici generici e ospedali pubblici, in particolare per paesi in cui l’infrastruttura di rete e dei servizi non ha prestazioni elevate. In tale contesto, l’unità di ricerca di Perugia è responsabile di unità per il progetto ARES (Advanced networking for EU genomic RESearch) [4] che ha come obiettivo principale l’ottimizzazione della gestione delle risorse di rete finalizzata alla elaborazione e trasferimento di dati di genoma umano che, se trattati come generici “big data”, implicano una gestione delle risorse di rete con prestazioni sub-ottime. In questa memoria, oltre alla descrizione del sistema, sono riportati i risultati sperimentali preliminari che evidenziano come una attenta scelta dei parametri degli algoritmi di elaborazione, di gestione e di consegna dei servizi, che si basano sull’integrazione del modello Content Distribution Network (CDN) e di quello Cloud, permette di personalizzare servizi di rete alle esigenze specifiche di personale medico sanitario che richieda elaborazione di dati genomici caratterizzati da dimensioni molto grandi dei file. Il progetto ARES, accettato nell’ambito della prima open-call del progetto Géant/GN3plus, è co-finanziato dalla Commissione Europea.
Progetto ARES: Advanced networking for EU genomic RESearch
NUNZI, Emilia;VALOCCHI, DARIO
2014
Abstract
La velocità con cui si generano i dati di genomica sta aumentando con un tasso più alto della legge di Moore, pertanto significativamente superiore all’ammodernamento della capacità trasmissiva e di immagazzinamento nelle rete per dati. Di conseguenza, gli utenti sperimentano difficoltà crescenti nella gestione dei dati di genomica, al punto tale che a volte i dati sono traferiti mediante soluzioni alternative alle reti. Ad esempio, il Beijing Genomics Institute, che elabora attualmente 2.000 genomi umani al giorno, invece di trasmetterli attraverso Internet o altre reti, invia hard-disk contenenti i dati tramite corriere espresso [8] Per avere un’idea della serietà del problema, supponiamo che un ricercatore voglia determinare le caratteristiche di un genoma rispetto ad una specifica malattia distribuita in diversi paesi del mondo. In tal caso, non solo il numero di file di genoma da gestire ed analizzare diventa estremamente grande, ma anche ogni insieme di dati che riguarda l’individuo stesso è significativamente grande, dell’ordine delle decine di GB. L’elaborazione del genoma, in particolare quello umano, in genere procede attraverso l’esecuzione di una pipeline di pacchetti software. Esistono diversi tipi di pipeline, ognuno specifico per esigenze di ricerca o diagnostiche [1]. I file di ingresso delle pipeline sono sia file di genoma, sia risultati di elaborazioni precedenti, detti annotazioni, sia il modello di riferimento del genoma umano [6] utilizzato per eseguire l’allineamento dei dati [5], [6], [7]. Anche se il genoma di un paziente può essere immagazzinato in un data base locale, tutti gli altri file, che si trovano in database localizzati fisicamente e geograficamente su server diversi, devono essere scaricati dalla rete. La dimensione globale di questi file è variabile, da pochi GB a decine di GB. Solo quando tutti i file sono stati trasferiti, allora può iniziare l’elaborazione dei dati, che può anche durare ore. In sostanza, il tempo totale chiesto per avere i risultati di una richiesta di elaborazione potrebbe essere superiore alle 24 ore. Nella prospettiva di una veloce ed imminente diffusione del sequenziamento e dell’utilizzo dei dati di genomica ai fini diagnostici, questa problematica pone almeno due aspetti critici. La minimizzazione dei tempi di consegna del servizio, nel caso in cui si debba trattare ad esempio la diagnosi di una malattia grave, e la gestione del traffico dati in rete. Mentre in un numero relativamente piccolo di prestigiose organizzazioni i ricercatori hanno a disposizione potenti strutture di calcolo parallelo [3], in generale questo non è vero per centri medici generici e ospedali pubblici, in particolare per paesi in cui l’infrastruttura di rete e dei servizi non ha prestazioni elevate. In tale contesto, l’unità di ricerca di Perugia è responsabile di unità per il progetto ARES (Advanced networking for EU genomic RESearch) [4] che ha come obiettivo principale l’ottimizzazione della gestione delle risorse di rete finalizzata alla elaborazione e trasferimento di dati di genoma umano che, se trattati come generici “big data”, implicano una gestione delle risorse di rete con prestazioni sub-ottime. In questa memoria, oltre alla descrizione del sistema, sono riportati i risultati sperimentali preliminari che evidenziano come una attenta scelta dei parametri degli algoritmi di elaborazione, di gestione e di consegna dei servizi, che si basano sull’integrazione del modello Content Distribution Network (CDN) e di quello Cloud, permette di personalizzare servizi di rete alle esigenze specifiche di personale medico sanitario che richieda elaborazione di dati genomici caratterizzati da dimensioni molto grandi dei file. Il progetto ARES, accettato nell’ambito della prima open-call del progetto Géant/GN3plus, è co-finanziato dalla Commissione Europea.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.