Vi presenterar CorrelationCalculator och Filigrae, två verktyg för datadriven nätverkskonstruktion och analys av metabolomikdata. CorrelationCalculator stöder att bygga ett enda interaktionsnätverk av metaboliter baserat på uttrycksdata, medan filigranen gör det möjligt att bygga ett differentiellt nätverk, följt av nätverksklustring och berikningsanalys.
En stor utmaning i analysen av omics-data är att extrahera användbar biologisk kunskap. Metabolomik är inget undantag. Det allmänna problemet med att relatera förändringar i nivåer av enskilda metaboliter till specifika biologiska processer förvärras av det stora antalet okända metaboliter som förekommer i oriktade studier av vätskekromatografi-masspektrometri (LC-MS). Vidare är sekundär metabolism och lipidmetabolism dåligt representerade i befintliga databaser över metabolismvägar. För att övervinna dessa begränsningar har vår grupp utvecklat flera verktyg för datadriven nätverkskonstruktion och analys. Dessa inkluderar CorrelationCalculator och Filigra. Båda verktygen gör det möjligt för användare att bygga partiella korrelationsbaserade nätverk från experimentella metabolomikdata när antalet metaboliter överstiger antalet prover. CorrelationCalculator stöder konstruktionen av ett enda nätverk, medan filigranen gör det möjligt att bygga ett differentiellt nätverk med hjälp av data från två grupper av prover, följt av nätverksklustring och berikningsanalys. Vi kommer att beskriva användbarheten och tillämpningen av båda verktygen för analys av verkliga metabolomikdata.
Under det senaste decenniet har metabolomik vuxit fram som en omics-vetenskap på grund av framsteg inom analytisk teknik som gaskromatografi-masspektrometri (GC-MS) och vätskekromatografi-masspektrometri (LC-MS). Dessa tekniker möjliggör samtidig mätning av hundratals till tusentals små molekylmetaboliter, vilket skapar komplexa flerdimensionella datamängder. Metabolomikexperiment kan utföras i riktade eller icke-riktade lägen. Riktade metabolomikexperiment mäter specifika klasser av metaboliter. De är vanligtvis hypotesdrivna, medan oriktade metoder försöker mäta så många metaboliter som möjligt och är hypotesgenererande till sin natur. Riktade tester inkluderar vanligtvis interna standarder och möjliggör därmed absolut kvantifiering av metaboliter av intresse. Däremot tillåter icke-riktade analyser relativ kvantifiering och inkluderar många okända metaboliter1.
Analys av metabolomikdata är en process i flera steg som utnyttjar många specialiserade programvaruverktyg1. Den kan delas in i följande tre huvudsteg: (1) databehandling och kvalitetskontroll, (2) statistisk analys och (3) tolkning av biologiska data. Verktygen som beskrivs här är utformade för att möjliggöra det senare steget i analysen.
Ett intuitivt och populärt sätt att tolka metabolomikdata är att kartlägga de experimentella mätningarna på metaboliska vägar. Många verktyg har utformats för att uppnå detta 2,3,4,5, inklusive Metscape, utvecklat av vår grupp6. Kartläggning av spridningsvägar kombineras ofta med berikningsanalys, vilket hjälper till att identifiera de viktigaste signalvägarna 7,8. Dessa tekniker fick först en framträdande plats i analysen av genuttrycksdata och har framgångsrikt tillämpats för analys av proteomik- och epigenomikdata 9,10,11,12,13. Analysen av metabolomikdata innebär dock ett antal utmaningar för kunskapsbaserade metoder. För det första, förutom de endogena metaboliterna, mäter metabolomikanalyser exogena föreningar, inklusive de som kommer från näring och andra miljökällor. Dessa föreningar, liksom metaboliter som produceras av bakterier, kan inte kartläggas på mänskliga eller metaboliska vägar hos andra eukaryota organismer. Vidare tillåter inte täckningen av sekundära metabolismer och lipidmetabolism för närvarande högupplöst kartläggning på den nivå som lätt skulle stödja den biologiska tolkningen av data14,15.
Datadrivna nätverksanalystekniker kan hjälpa till att övervinna dessa utmaningar. Till exempel kan korrelationsbaserade nätverk hjälpa till att härleda släktskap mellan både kända och okända metaboliter och underlätta annoteringen av de okända16. Att beräkna Pearsons korrelationskoefficienter är det enklaste sättet att fastställa de linjära sambanden mellan metaboliter, men nackdelen är att det fångar både direkta och indirekta associationer17,18,19. Ett alternativ är att beräkna partiella korrelationskoefficienter som kan skilja mellan direkta och indirekta associationer. Gaussisk grafisk modellering (GGM) kan användas för att uppskatta partiella korrelationsnätverk. GGM kräver dock att urvalsstorleken och antalet funktioner är jämförbara. Detta villkor uppfylls sällan i icke-riktade LC-MS-data som innehåller mätningar för tusentals metaboliska egenskaper. Regulariseringstekniker kan användas för att lösa den här begränsningen. Grafiskt lasso (Glasso) och nodvis regression är populära metoder för regulariserad skattning av det partiella korrelationsnätverket16,20.
Det första av de bioinformatikverktyg som presenteras här, CorrelationCalculator16, baseras på DSPC-algoritmen (debiased sparse partial correlation ). DSPC förlitar sig på avglesifierad grafisk lassomodellering. Det underliggande antagandet i algoritmen är att antalet kopplingar mellan metaboliterna är betydligt mindre än antalet prover, dvs det partiella korrelationsnätverket av metaboliter är glest. Detta antagande gör det möjligt för DSPC att upptäcka konnektiviteten mellan ett stort antal metaboliter med hjälp av färre prover, med hjälp av regulariserade regressionstekniker. Vidare, med hjälp av ett debiasing-steg för de regulariserade regressionsuppskattningarna, erhåller den samplingsfördelningar för kantparametrarna som kan användas för att konstruera konfidensintervall och testa hypoteser av intresse (t.ex. närvaro/frånvaro av en enda eller en grupp av kanter). Närvaron eller frånvaron av en kant i det partiella korrelationsnätverket kan därmed testas formellt med hjälp av de beräknade p-värdena.
CorrelationCalculator visade sig vara mycket användbar för analys av en grupp16; Målet med många metabolomikexperiment är dock differentialanalys av två eller flera tillstånd. CorrelationCalculator kan användas i var och en av grupperna separat, men den här metoden begränsar antalet exempel som kan användas för nätverksgenerering. Eftersom en tillräckligt stor urvalsstorlek är en av de största övervägandena inom datadriven analys, är metoder som kan utnyttja alla tillgängliga prover i data för att konstruera nätverk mycket önskvärda. Detta tillvägagångssätt implementeras i det andra verktyget som presenteras här, kallat Filigran21. Filigran förlitar sig på den tidigare publicerade DNEA-algoritmen (Differential Network Enrichment Analysis)22. Tabell 1 visar applikationerna och arbetsflödet för båda verktygen.
Antal försöksbetingelser (k) | k = 1 | k = 2 |
Verktyg för programvara | KorrelationKalkylator | Filigran |
Indata | • Metaboliter x Prover datamatris | • Metaboliter x Prover datamatris • Experimentella grupper |
Arbetsflöde •Förbehandling • Uppskattning av nätverk • Klustring av nätverk • Berikningsanalys |
• Omvandling av loggar; Automatisk skalning • DSPC • Via externa appar •Nej |
• Omvandling av loggar; Automatisk skalning • Gemensam nätverksuppskattning • Klustring av konsensus • NetGSA |
Visualisering av data | Via extern app, t.ex. Cytoscape | Via extern app, t.ex. Cytoscape |
Testning av metaboliska moduler för sambandet med resultatet av intresse (frivilligt) | Via externa appar | Via externa appar |
Tabell 1: Tillämpningsområdet och arbetsflödet för CorrelationCalculator och Filigra.
Partiella korrelationsbaserade nätverksanalysmetoder implementerade i CorrelationCalculator och Filigran hjälper till att övervinna några av begränsningarna med kunskapsbaserade metaboliska väganalyser, särskilt för datauppsättningar med hög prevalens av okända metaboliter och begränsad täckning av metaboliska vägar (t.ex. lipidomikdata). Dessa verktyg har använts i stor utsträckning av forskarsamhället för att analysera ett brett spektrum av metabolomik- och lipidomikdata 14,22,27,28,29,30<sup class="x…
The authors have nothing to disclose.
Detta arbete stöddes av NIH 1U01CA235487-anslag.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |