Summary

CorrelationCalculator och filigran: Verktyg för datadriven nätverksanalys av metabolomikdata

Published: November 10, 2023
doi:

Summary

Vi presenterar CorrelationCalculator och Filigrae, två verktyg för datadriven nätverkskonstruktion och analys av metabolomikdata. CorrelationCalculator stöder att bygga ett enda interaktionsnätverk av metaboliter baserat på uttrycksdata, medan filigranen gör det möjligt att bygga ett differentiellt nätverk, följt av nätverksklustring och berikningsanalys.

Abstract

En stor utmaning i analysen av omics-data är att extrahera användbar biologisk kunskap. Metabolomik är inget undantag. Det allmänna problemet med att relatera förändringar i nivåer av enskilda metaboliter till specifika biologiska processer förvärras av det stora antalet okända metaboliter som förekommer i oriktade studier av vätskekromatografi-masspektrometri (LC-MS). Vidare är sekundär metabolism och lipidmetabolism dåligt representerade i befintliga databaser över metabolismvägar. För att övervinna dessa begränsningar har vår grupp utvecklat flera verktyg för datadriven nätverkskonstruktion och analys. Dessa inkluderar CorrelationCalculator och Filigra. Båda verktygen gör det möjligt för användare att bygga partiella korrelationsbaserade nätverk från experimentella metabolomikdata när antalet metaboliter överstiger antalet prover. CorrelationCalculator stöder konstruktionen av ett enda nätverk, medan filigranen gör det möjligt att bygga ett differentiellt nätverk med hjälp av data från två grupper av prover, följt av nätverksklustring och berikningsanalys. Vi kommer att beskriva användbarheten och tillämpningen av båda verktygen för analys av verkliga metabolomikdata.

Introduction

Under det senaste decenniet har metabolomik vuxit fram som en omics-vetenskap på grund av framsteg inom analytisk teknik som gaskromatografi-masspektrometri (GC-MS) och vätskekromatografi-masspektrometri (LC-MS). Dessa tekniker möjliggör samtidig mätning av hundratals till tusentals små molekylmetaboliter, vilket skapar komplexa flerdimensionella datamängder. Metabolomikexperiment kan utföras i riktade eller icke-riktade lägen. Riktade metabolomikexperiment mäter specifika klasser av metaboliter. De är vanligtvis hypotesdrivna, medan oriktade metoder försöker mäta så många metaboliter som möjligt och är hypotesgenererande till sin natur. Riktade tester inkluderar vanligtvis interna standarder och möjliggör därmed absolut kvantifiering av metaboliter av intresse. Däremot tillåter icke-riktade analyser relativ kvantifiering och inkluderar många okända metaboliter1.

Analys av metabolomikdata är en process i flera steg som utnyttjar många specialiserade programvaruverktyg1. Den kan delas in i följande tre huvudsteg: (1) databehandling och kvalitetskontroll, (2) statistisk analys och (3) tolkning av biologiska data. Verktygen som beskrivs här är utformade för att möjliggöra det senare steget i analysen.

Ett intuitivt och populärt sätt att tolka metabolomikdata är att kartlägga de experimentella mätningarna på metaboliska vägar. Många verktyg har utformats för att uppnå detta 2,3,4,5, inklusive Metscape, utvecklat av vår grupp6. Kartläggning av spridningsvägar kombineras ofta med berikningsanalys, vilket hjälper till att identifiera de viktigaste signalvägarna 7,8. Dessa tekniker fick först en framträdande plats i analysen av genuttrycksdata och har framgångsrikt tillämpats för analys av proteomik- och epigenomikdata 9,10,11,12,13. Analysen av metabolomikdata innebär dock ett antal utmaningar för kunskapsbaserade metoder. För det första, förutom de endogena metaboliterna, mäter metabolomikanalyser exogena föreningar, inklusive de som kommer från näring och andra miljökällor. Dessa föreningar, liksom metaboliter som produceras av bakterier, kan inte kartläggas på mänskliga eller metaboliska vägar hos andra eukaryota organismer. Vidare tillåter inte täckningen av sekundära metabolismer och lipidmetabolism för närvarande högupplöst kartläggning på den nivå som lätt skulle stödja den biologiska tolkningen av data14,15.

Datadrivna nätverksanalystekniker kan hjälpa till att övervinna dessa utmaningar. Till exempel kan korrelationsbaserade nätverk hjälpa till att härleda släktskap mellan både kända och okända metaboliter och underlätta annoteringen av de okända16. Att beräkna Pearsons korrelationskoefficienter är det enklaste sättet att fastställa de linjära sambanden mellan metaboliter, men nackdelen är att det fångar både direkta och indirekta associationer17,18,19. Ett alternativ är att beräkna partiella korrelationskoefficienter som kan skilja mellan direkta och indirekta associationer. Gaussisk grafisk modellering (GGM) kan användas för att uppskatta partiella korrelationsnätverk. GGM kräver dock att urvalsstorleken och antalet funktioner är jämförbara. Detta villkor uppfylls sällan i icke-riktade LC-MS-data som innehåller mätningar för tusentals metaboliska egenskaper. Regulariseringstekniker kan användas för att lösa den här begränsningen. Grafiskt lasso (Glasso) och nodvis regression är populära metoder för regulariserad skattning av det partiella korrelationsnätverket16,20.

Det första av de bioinformatikverktyg som presenteras här, CorrelationCalculator16, baseras på DSPC-algoritmen (debiased sparse partial correlation ). DSPC förlitar sig på avglesifierad grafisk lassomodellering. Det underliggande antagandet i algoritmen är att antalet kopplingar mellan metaboliterna är betydligt mindre än antalet prover, dvs det partiella korrelationsnätverket av metaboliter är glest. Detta antagande gör det möjligt för DSPC att upptäcka konnektiviteten mellan ett stort antal metaboliter med hjälp av färre prover, med hjälp av regulariserade regressionstekniker. Vidare, med hjälp av ett debiasing-steg för de regulariserade regressionsuppskattningarna, erhåller den samplingsfördelningar för kantparametrarna som kan användas för att konstruera konfidensintervall och testa hypoteser av intresse (t.ex. närvaro/frånvaro av en enda eller en grupp av kanter). Närvaron eller frånvaron av en kant i det partiella korrelationsnätverket kan därmed testas formellt med hjälp av de beräknade p-värdena.

CorrelationCalculator visade sig vara mycket användbar för analys av en grupp16; Målet med många metabolomikexperiment är dock differentialanalys av två eller flera tillstånd. CorrelationCalculator kan användas i var och en av grupperna separat, men den här metoden begränsar antalet exempel som kan användas för nätverksgenerering. Eftersom en tillräckligt stor urvalsstorlek är en av de största övervägandena inom datadriven analys, är metoder som kan utnyttja alla tillgängliga prover i data för att konstruera nätverk mycket önskvärda. Detta tillvägagångssätt implementeras i det andra verktyget som presenteras här, kallat Filigran21. Filigran förlitar sig på den tidigare publicerade DNEA-algoritmen (Differential Network Enrichment Analysis)22. Tabell 1 visar applikationerna och arbetsflödet för båda verktygen.

Antal försöksbetingelser (k) k = 1 k = 2
Verktyg för programvara KorrelationKalkylator Filigran
Indata • Metaboliter x Prover datamatris • Metaboliter x Prover datamatris
• Experimentella grupper
Arbetsflöde
•Förbehandling
• Uppskattning av nätverk
• Klustring av nätverk
• Berikningsanalys

• Omvandling av loggar; Automatisk skalning
• DSPC
• Via externa appar
•Nej

• Omvandling av loggar; Automatisk skalning
• Gemensam nätverksuppskattning
• Klustring av konsensus
• NetGSA
Visualisering av data Via extern app, t.ex. Cytoscape Via extern app, t.ex. Cytoscape
Testning av metaboliska moduler för sambandet med resultatet av intresse (frivilligt) Via externa appar Via externa appar

Tabell 1: Tillämpningsområdet och arbetsflödet för CorrelationCalculator och Filigra.

Protocol

1. KorrelationKalkylator Ladda ned ett exempel på en kommaavgränsad indatafil som innehåller en lista över metaboliter med experimentella mätningar vid http://metscape.med.umich.edu/kora_data_240.csv. Dubbelklicka på den nedladdade exempelfilen för att öppna den.Kontrollera att filen innehåller etiketter för både proverna och metaboliterna. Eftersom proverna finns i rader bekräftar du att den första kolumnen är provnamnen och den första raden är meta…

Representative Results

För att illustrera användningen av CorrelationCalculator konstruerade vi ett partiellt korrelationsnätverk med hjälp av en delmängd av metabolomikdata från KORA-populationsstudien som beskrivs i Krumsiek et al.24. Datasetet innehöll 151 metaboliter och 240 prover. Figur 1 visar det resulterande partiella korrelationsnätverket som visualiserades i Cytoscape. Nätverket innehåller 148 noder och 272 kanter. Färgen på noderna representerar metaboliter …

Discussion

Partiella korrelationsbaserade nätverksanalysmetoder implementerade i CorrelationCalculator och Filigran hjälper till att övervinna några av begränsningarna med kunskapsbaserade metaboliska väganalyser, särskilt för datauppsättningar med hög prevalens av okända metaboliter och begränsad täckning av metaboliska vägar (t.ex. lipidomikdata). Dessa verktyg har använts i stor utsträckning av forskarsamhället för att analysera ett brett spektrum av metabolomik- och lipidomikdata 14,22,27,28,29,30<sup class="x…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes av NIH 1U01CA235487-anslag.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video