Presentiamo CorrelationCalculator e Filigree, due strumenti per la costruzione di reti basate sui dati e l’analisi dei dati metabolomici. CorrelationCalculator supporta la creazione di una singola rete di interazione di metaboliti basata sui dati di espressione, mentre Filigree consente di creare una rete differenziale, seguita dal clustering della rete e dall’analisi dell’arricchimento.
Una sfida significativa nell’analisi dei dati omici è l’estrazione di conoscenze biologiche utilizzabili. La metabolomica non fa eccezione. Il problema generale di mettere in relazione le variazioni dei livelli dei singoli metaboliti con specifici processi biologici è aggravato dal gran numero di metaboliti sconosciuti presenti negli studi di cromatografia liquida e spettrometria di massa (LC-MS) non mirati. Inoltre, il metabolismo secondario e il metabolismo lipidico sono scarsamente rappresentati nei database di pathway esistenti. Per superare queste limitazioni, il nostro gruppo ha sviluppato diversi strumenti per la costruzione e l’analisi di reti basate sui dati. Questi includono CorrelationCalculator e Filigree. Entrambi gli strumenti consentono agli utenti di costruire reti basate sulla correlazione parziale a partire da dati di metabolomica sperimentale quando il numero di metaboliti supera il numero di campioni. CorrelationCalculator supporta la costruzione di una singola rete, mentre Filigree consente di creare una rete differenziale utilizzando i dati di due gruppi di campioni, seguiti dal clustering della rete e dall’analisi dell’arricchimento. Descriveremo l’utilità e l’applicazione di entrambi gli strumenti per l’analisi di dati metabolomici reali.
Nell’ultimo decennio, la metabolomica è emersa come scienza omica grazie ai progressi nelle tecnologie analitiche come la gascromatografia-spettrometria di massa (GC-MS) e la cromatografia liquida-spettrometria di massa (LC-MS). Queste tecniche consentono la misurazione simultanea di centinaia o migliaia di metaboliti di piccole molecole, creando complessi set di dati multidimensionali. Gli esperimenti di metabolomica possono essere eseguiti in modalità mirata o non mirata. Esperimenti mirati di metabolomica misurano classi specifiche di metaboliti. Di solito sono guidati da ipotesi, mentre gli approcci non mirati tentano di misurare il maggior numero possibile di metaboliti e sono di natura generatrice di ipotesi. I saggi mirati di solito includono standard interni e consentono quindi una quantificazione assoluta dei metaboliti di interesse. Al contrario, i saggi non mirati consentono una quantificazione relativa e includono molti metaboliti sconosciuti1.
L’analisi dei dati metabolomici è un processo in più fasi che sfrutta molti strumenti software specializzati1. Può essere suddiviso nelle seguenti tre fasi principali: (1) elaborazione dei dati e controllo di qualità, (2) analisi statistica e (3) interpretazione dei dati biologici. Gli strumenti qui descritti sono progettati per consentire l’ultima fase dell’analisi.
Un modo intuitivo e popolare per interpretare i dati metabolomici è quello di mappare le misurazioni sperimentali sulle vie metaboliche. Per raggiungere questo obiettivo sono stati progettati numerosi strumenti 2,3,4,5, tra cui Metscape, sviluppato dal nostro gruppo6. La mappatura dei percorsi è spesso combinata con l’analisi dell’arricchimento, che aiuta a identificare i percorsi più significativi 7,8. Queste tecniche hanno acquisito importanza nell’analisi dei dati di espressione genica e sono state applicate con successo per l’analisi dei dati di proteomica ed epigenomica 9,10,11,12,13. Tuttavia, l’analisi dei dati metabolomici presenta una serie di sfide per gli approcci basati sulla conoscenza. In primo luogo, oltre ai metaboliti endogeni, i saggi metabolomici misurano i composti esogeni, compresi quelli che provengono dalla nutrizione e da altre fonti ambientali. Questi composti, così come i metaboliti prodotti dai batteri, non possono essere mappati sulle vie umane o metaboliche di altri organismi eucarioti. Inoltre, la copertura del pathway del metabolismo secondario e del metabolismo lipidico attualmente non consente una mappatura ad alta risoluzione al livello che supporterebbe facilmente l’interpretazione biologica dei dati14,15.
Le tecniche di analisi di rete basate sui dati possono aiutare a superare queste sfide. Ad esempio, le reti basate sulla correlazione possono aiutare a derivare relazioni tra metaboliti noti e sconosciuti e facilitare l’annotazione delle incognite16. Mentre il calcolo dei coefficienti di correlazione di Pearson è l’approccio più semplice per stabilire le relazioni lineari tra i metaboliti, lo svantaggio è che cattura sia le associazioni dirette che indirette17,18,19. Un’alternativa consiste nel calcolare coefficienti di correlazione parziale in grado di distinguere tra associazioni dirette e indirette. La modellazione grafica gaussiana (GGM) può essere utilizzata per stimare le reti di correlazione parziale. Tuttavia, GGM richiede che la dimensione del campione e il numero di feature siano comparabili. Questa condizione è raramente soddisfatta nei dati LC-MS non mirati che contengono misurazioni per migliaia di caratteristiche metaboliche. Le tecniche di regolarizzazione possono essere utilizzate per superare questa limitazione. Il lazo grafico (Glasso) e la regressione per nodo sono metodi popolari per la stima regolarizzata della rete di correlazione parziale 16,20.
Il primo degli strumenti bioinformatici qui presentati, CorrelationCalculator16, si basa sull’algoritmo di correlazione parziale sparsa distorta (DSPC). DSPC si basa sulla modellazione lazo grafica de-sparsificata. L’ipotesi alla base dell’algoritmo è che il numero di connessioni tra i metaboliti è considerevolmente inferiore al numero di campioni, cioè la rete di correlazione parziale dei metaboliti è scarsa. Questa ipotesi consente al DSPC di scoprire la connettività tra un gran numero di metaboliti utilizzando un minor numero di campioni, sfruttando tecniche di regressione regolarizzata. Inoltre, utilizzando un passaggio di debiasing per le stime di regressione regolarizzate, ottiene distribuzioni di campionamento per i parametri del bordo che possono essere utilizzate per costruire intervalli di confidenza e testare ipotesi di interesse (ad esempio, presenza/assenza di un singolo o di un gruppo di bordi). La presenza o l’assenza di un bordo nella rete di correlazione parziale può quindi essere formalmente verificata utilizzando i valori p calcolati.
CorrelationCalculator si è rivelato molto utile per l’analisi a gruppo singolo16; Tuttavia, l’obiettivo di molti esperimenti di metabolomica è l’analisi differenziale di due o più condizioni. Mentre CorrelationCalculator può essere utilizzato su ciascuno dei gruppi separatamente per generare reti di correlazione parziale per ogni condizione, questo approccio limita il numero di campioni che possono essere usati per la generazione di rete. Poiché una dimensione del campione sufficientemente grande è una delle considerazioni più importanti nell’analisi basata sui dati, i metodi in grado di sfruttare tutti i campioni disponibili nei dati per costruire reti sono altamente desiderabili. Questo approccio è implementato nel secondo strumento qui presentato, chiamato Filigrana21. Filigree si basa sull’algoritmo DNEA (Differential Network Enrichment Analysis) pubblicato in precedenza22. La tabella 1 mostra le applicazioni e il flusso di lavoro di entrambi gli strumenti.
Numero di condizioni sperimentali (k) | k = 1 | k = 2 |
Strumento software | Calcolatore di correlazione | Filigrana |
Dati di input | • Matrice di dati Metaboliti x Campioni | • Matrice di dati Metaboliti x Campioni • Gruppi sperimentali |
Flusso di lavoro •Pretrattamento • Stima della rete • Clustering di rete • Analisi dell’arricchimento |
• Trasformazione dei log; Scalabilità automatica • DSPC • Tramite app esterne •No |
• Trasformazione dei log; Scalabilità automatica • Stima della rete congiunta • Clustering del consenso • NetGSA |
Visualizzazione dei dati | Tramite app esterna, ad es. Cytoscape | Tramite app esterna, ad es. Cytoscape |
Test dei moduli metabolici per l’associazione con esito di interesse (opzionale) | Tramite app esterne | Tramite app esterne |
Tabella 1: L’ambito di applicazione e il flusso di lavoro di CorrelationCalculator e Filigree.
I metodi di analisi di rete basati sulla correlazione parziale implementati in CorrelationCalculator e Filigree aiutano a superare alcuni dei limiti delle analisi delle vie metaboliche basate sulla conoscenza, in particolare per i set di dati con un’elevata prevalenza di metaboliti sconosciuti e una copertura limitata delle vie metaboliche (ad esempio, dati lipidomici). Questi strumenti sono stati ampiamente utilizzati dalla comunità di ricerca per analizzare un’ampia gamma di dati metabolomici e lipidomici 14,22,27,28,…
The authors have nothing to disclose.
Questo lavoro è stato supportato dalla sovvenzione NIH 1U01CA235487.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |