Vi præsenterer CorrelationCalculator og Filigree, to værktøjer til datadrevet netværkskonstruktion og analyse af metabolomics data. CorrelationCalculator understøtter opbygning af et enkelt interaktionsnetværk af metabolitter baseret på ekspressionsdata, mens Filigran gør det muligt at opbygge et differentielt netværk efterfulgt af netværksklynger og berigelsesanalyse.
En væsentlig udfordring i analysen af omics-data er at udtrække handlingsrettet biologisk viden. Metabolomics er ingen undtagelse. Det generelle problem med at relatere ændringer i niveauerne af individuelle metabolitter til specifikke biologiske processer forværres af det store antal ukendte metabolitter, der er til stede i ikke-målrettede væskekromatografi-massespektrometriundersøgelser (LC-MS). Endvidere er sekundær metabolisme og lipidmetabolisme dårligt repræsenteret i eksisterende pathway databaser. For at overvinde disse begrænsninger har vores gruppe udviklet flere værktøjer til datadrevet netværkskonstruktion og analyse. Disse omfatter CorrelationCalculator og Filigree. Begge værktøjer giver brugerne mulighed for at opbygge delvise korrelationsbaserede netværk fra eksperimentelle metabolomics-data, når antallet af metabolitter overstiger antallet af prøver. CorrelationCalculator understøtter opbygningen af et enkelt netværk, mens Filigran tillader opbygning af et differentieret netværk ved hjælp af data fra to grupper af prøver, efterfulgt af netværksklynger og berigelsesanalyse. Vi vil beskrive anvendeligheden og anvendelsen af begge værktøjer til analyse af virkelige metabolomics-data.
I det sidste årti er metabolomics opstået som en omics-videnskab på grund af fremskridt inden for analytiske teknologier såsom gaskromatografi-massespektrometri (GC-MS) og væskekromatografi-massespektrometri (LC-MS). Disse teknikker tillader samtidig måling af hundreder til tusinder af små molekylemetabolitter, hvilket skaber komplekse flerdimensionelle datasæt. Metabolomics eksperimenter kan udføres i målrettede eller ikke-målrettede tilstande. Målrettede metabolomics-eksperimenter måler specifikke klasser af metabolitter. De er normalt hypotesedrevne, mens ikke-målrettede tilgange forsøger at måle så mange metabolitter som muligt og er hypotesegenererende i naturen. Målrettede assays omfatter normalt interne standarder og muliggør således absolut kvantificering af relevante metabolitter. I modsætning hertil tillader ikke-målrettede assays relativ kvantificering og omfatter mange ukendte metabolitter1.
Analyse af metabolomics-data er en proces i flere trin, der udnytter mange specialiserede softwareværktøjer1. Det kan opdeles i følgende tre hovedtrin: (1) databehandling og kvalitetskontrol, (2) statistisk analyse og (3) fortolkning af biologiske data. De værktøjer, der beskrives her, er designet til at muliggøre det sidste trin i analysen.
En intuitiv og populær måde at fortolke metabolomics data på er at kortlægge de eksperimentelle målinger på metaboliske veje. Talrige værktøjer er designet til at opnå denne 2,3,4,5, herunder Metscape, udviklet af vores gruppe6. Pathway kortlægning kombineres ofte med berigelsesanalyse, som hjælper med at identificere de mest betydningsfulde veje 7,8. Disse teknikker fik først fremtrædende plads i analysen af genekspressionsdata og er med succes blevet anvendt til analyse af proteomics og epigenomics data 9,10,11,12,13. Analysen af metabolomics-data giver imidlertid en række udfordringer for videnbaserede tilgange. For det første måler metabolomics-assays ud over de endogene metabolitter eksogene forbindelser, herunder dem, der kommer fra ernæring og andre miljøkilder. Disse forbindelser, såvel som metabolitter produceret af bakterier, kan ikke kortlægges på humane eller metaboliske veje af andre eukaryote organismer. Desuden tillader vejdækning af sekundær metabolisme og lipidmetabolisme i øjeblikket ikke kortlægning i høj opløsning på det niveau, der let ville understøtte den biologiske fortolkning af dataene14,15.
Datadrevne netværksanalyseteknikker kan hjælpe med at overvinde disse udfordringer. For eksempel kan korrelationsbaserede netværk hjælpe med at udlede relationer mellem både kendte og ukendte metabolitter og lette annoteringen af de ukendte16. Mens beregning af Pearsons korrelationskoefficienter er den mest ligetil tilgang til etablering af de lineære forhold mellem metabolitter, er ulempen, at den fanger både direkte og indirekte foreninger17,18,19. Et alternativ er at beregne delvise korrelationskoefficienter, der kan skelne mellem direkte og indirekte foreninger. Gaussisk grafisk modellering (GGM) kan bruges til at estimere delvise korrelationsnetværk. GGM kræver dog, at stikprøvestørrelsen og antallet af funktioner er sammenlignelige. Denne betingelse er sjældent opfyldt i ikke-målrettede LC-MS-data, der indeholder målinger for tusindvis af metaboliske egenskaber. Regulariseringsteknikker kan bruges til at overvinde denne begrænsning. Grafisk lasso (Glasso) og nodevis regression er populære metoder til reguleret estimering af det partielle korrelationsnetværk 16,20.
Det første af de bioinformatikværktøjer, der præsenteres her, CorrelationCalculator16, er baseret på DSPC-algoritmen (Debiased Sparse Partial Correlation Algorithm). DSPC er afhængig af de-sparsificeret grafisk lassomodellering. Den underliggende antagelse for algoritmen er, at antallet af forbindelser mellem metabolitterne er betydeligt mindre end antallet af prøver, dvs. det partielle korrelationsnetværk af metabolitter er sparsomt. Denne antagelse gør det muligt for DSPC at opdage forbindelsen mellem et stort antal metabolitter ved hjælp af færre prøver ved at udnytte regulerede regressionsteknikker. Ved hjælp af et debiasing-trin til de regulerede regressionsestimater opnår den desuden prøveudtagningsfordelinger for kantparametrene, der kan bruges til at konstruere konfidensintervaller og teste hypoteser af interesse (f.eks. tilstedeværelse/fravær af en enkelt eller en gruppe kanter). Tilstedeværelsen eller fraværet af en kant i det partielle korrelationsnetværk kan således formelt testes ved hjælp af de beregnede p-værdier.
CorrelationCalculator viste sig at være meget nyttig til enkeltgruppeanalyse16; Formålet med mange metabolomics-eksperimenter er imidlertid differentiel analyse af to eller flere tilstande. Mens CorrelationCalculator kan anvendes på hver af grupperne separat for at generere delvise korrelationsnetværk for hver tilstand, begrænser denne tilgang antallet af prøver, der kan bruges til netværksgenerering. Da en tilstrækkelig stor stikprøvestørrelse er en af de største overvejelser i datadrevet analyse, er metoder, der kan udnytte alle tilgængelige prøver i dataene til at konstruere netværk, meget ønskelige. Denne tilgang implementeres i det andet værktøj, der præsenteres her, kaldet Filigran21. Filigran er afhængig af den tidligere offentliggjorte Differential Network Enrichment Analysis (DNEA) algoritme22. Tabel 1 viser applikationerne og arbejdsgangen for begge værktøjer.
Antal forsøgsbetingelser (k) | k = 1 | k = 2 |
Software værktøj | Korrelationberegner | Filigran |
Input data | • Metabolitter x Prøver datamatrix | • Metabolitter x Prøver datamatrix • Eksperimentelle grupper |
Arbejdsproces •Forbehandling • Estimering af netværk • Netværk klynger • Berigelsesanalyse |
• Log transformation; Automatisk skalering • DSPC • Via eksterne apps •Nej |
• Log transformation; Automatisk skalering • Fælles netværksestimering • Konsensus klyngedannelse • NetGSA |
Visualisering af data | Via ekstern app, f.eks. Cytoscape | Via ekstern app, f.eks. Cytoscape |
Test af metaboliske moduler til associering med resultat af interesse (valgfrit) | Via eksterne apps | Via eksterne apps |
Tabel 1: Anvendelsesområdet og arbejdsgangen for CorrelationCalculator og Filigran.
Partielle korrelationsbaserede netværksanalysemetoder implementeret i CorrelationCalculator og Filigran hjælper med at overvinde nogle af begrænsningerne ved videnbaserede metaboliske vejanalyser, især for datasæt med en høj forekomst af ukendte metabolitter og begrænset dækning af metaboliske veje (f.eks. lipidomics-data). Disse værktøjer er blevet brugt i vid udstrækning af forskersamfundet til at analysere en bred vifte af metabolomics og lipidomics data 14,22,27,28,29,30<…
The authors have nothing to disclose.
Dette arbejde blev støttet af NIH 1U01CA235487 bevilling.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |