Summary

CorrelationCalculator og Filigran: Værktøjer til datadrevet netværksanalyse af metabolomicsdata

Published: November 10, 2023
doi:

Summary

Vi præsenterer CorrelationCalculator og Filigree, to værktøjer til datadrevet netværkskonstruktion og analyse af metabolomics data. CorrelationCalculator understøtter opbygning af et enkelt interaktionsnetværk af metabolitter baseret på ekspressionsdata, mens Filigran gør det muligt at opbygge et differentielt netværk efterfulgt af netværksklynger og berigelsesanalyse.

Abstract

En væsentlig udfordring i analysen af omics-data er at udtrække handlingsrettet biologisk viden. Metabolomics er ingen undtagelse. Det generelle problem med at relatere ændringer i niveauerne af individuelle metabolitter til specifikke biologiske processer forværres af det store antal ukendte metabolitter, der er til stede i ikke-målrettede væskekromatografi-massespektrometriundersøgelser (LC-MS). Endvidere er sekundær metabolisme og lipidmetabolisme dårligt repræsenteret i eksisterende pathway databaser. For at overvinde disse begrænsninger har vores gruppe udviklet flere værktøjer til datadrevet netværkskonstruktion og analyse. Disse omfatter CorrelationCalculator og Filigree. Begge værktøjer giver brugerne mulighed for at opbygge delvise korrelationsbaserede netværk fra eksperimentelle metabolomics-data, når antallet af metabolitter overstiger antallet af prøver. CorrelationCalculator understøtter opbygningen af et enkelt netværk, mens Filigran tillader opbygning af et differentieret netværk ved hjælp af data fra to grupper af prøver, efterfulgt af netværksklynger og berigelsesanalyse. Vi vil beskrive anvendeligheden og anvendelsen af begge værktøjer til analyse af virkelige metabolomics-data.

Introduction

I det sidste årti er metabolomics opstået som en omics-videnskab på grund af fremskridt inden for analytiske teknologier såsom gaskromatografi-massespektrometri (GC-MS) og væskekromatografi-massespektrometri (LC-MS). Disse teknikker tillader samtidig måling af hundreder til tusinder af små molekylemetabolitter, hvilket skaber komplekse flerdimensionelle datasæt. Metabolomics eksperimenter kan udføres i målrettede eller ikke-målrettede tilstande. Målrettede metabolomics-eksperimenter måler specifikke klasser af metabolitter. De er normalt hypotesedrevne, mens ikke-målrettede tilgange forsøger at måle så mange metabolitter som muligt og er hypotesegenererende i naturen. Målrettede assays omfatter normalt interne standarder og muliggør således absolut kvantificering af relevante metabolitter. I modsætning hertil tillader ikke-målrettede assays relativ kvantificering og omfatter mange ukendte metabolitter1.

Analyse af metabolomics-data er en proces i flere trin, der udnytter mange specialiserede softwareværktøjer1. Det kan opdeles i følgende tre hovedtrin: (1) databehandling og kvalitetskontrol, (2) statistisk analyse og (3) fortolkning af biologiske data. De værktøjer, der beskrives her, er designet til at muliggøre det sidste trin i analysen.

En intuitiv og populær måde at fortolke metabolomics data på er at kortlægge de eksperimentelle målinger på metaboliske veje. Talrige værktøjer er designet til at opnå denne 2,3,4,5, herunder Metscape, udviklet af vores gruppe6. Pathway kortlægning kombineres ofte med berigelsesanalyse, som hjælper med at identificere de mest betydningsfulde veje 7,8. Disse teknikker fik først fremtrædende plads i analysen af genekspressionsdata og er med succes blevet anvendt til analyse af proteomics og epigenomics data 9,10,11,12,13. Analysen af metabolomics-data giver imidlertid en række udfordringer for videnbaserede tilgange. For det første måler metabolomics-assays ud over de endogene metabolitter eksogene forbindelser, herunder dem, der kommer fra ernæring og andre miljøkilder. Disse forbindelser, såvel som metabolitter produceret af bakterier, kan ikke kortlægges på humane eller metaboliske veje af andre eukaryote organismer. Desuden tillader vejdækning af sekundær metabolisme og lipidmetabolisme i øjeblikket ikke kortlægning i høj opløsning på det niveau, der let ville understøtte den biologiske fortolkning af dataene14,15.

Datadrevne netværksanalyseteknikker kan hjælpe med at overvinde disse udfordringer. For eksempel kan korrelationsbaserede netværk hjælpe med at udlede relationer mellem både kendte og ukendte metabolitter og lette annoteringen af de ukendte16. Mens beregning af Pearsons korrelationskoefficienter er den mest ligetil tilgang til etablering af de lineære forhold mellem metabolitter, er ulempen, at den fanger både direkte og indirekte foreninger17,18,19. Et alternativ er at beregne delvise korrelationskoefficienter, der kan skelne mellem direkte og indirekte foreninger. Gaussisk grafisk modellering (GGM) kan bruges til at estimere delvise korrelationsnetværk. GGM kræver dog, at stikprøvestørrelsen og antallet af funktioner er sammenlignelige. Denne betingelse er sjældent opfyldt i ikke-målrettede LC-MS-data, der indeholder målinger for tusindvis af metaboliske egenskaber. Regulariseringsteknikker kan bruges til at overvinde denne begrænsning. Grafisk lasso (Glasso) og nodevis regression er populære metoder til reguleret estimering af det partielle korrelationsnetværk 16,20.

Det første af de bioinformatikværktøjer, der præsenteres her, CorrelationCalculator16, er baseret på DSPC-algoritmen (Debiased Sparse Partial Correlation Algorithm). DSPC er afhængig af de-sparsificeret grafisk lassomodellering. Den underliggende antagelse for algoritmen er, at antallet af forbindelser mellem metabolitterne er betydeligt mindre end antallet af prøver, dvs. det partielle korrelationsnetværk af metabolitter er sparsomt. Denne antagelse gør det muligt for DSPC at opdage forbindelsen mellem et stort antal metabolitter ved hjælp af færre prøver ved at udnytte regulerede regressionsteknikker. Ved hjælp af et debiasing-trin til de regulerede regressionsestimater opnår den desuden prøveudtagningsfordelinger for kantparametrene, der kan bruges til at konstruere konfidensintervaller og teste hypoteser af interesse (f.eks. tilstedeværelse/fravær af en enkelt eller en gruppe kanter). Tilstedeværelsen eller fraværet af en kant i det partielle korrelationsnetværk kan således formelt testes ved hjælp af de beregnede p-værdier.

CorrelationCalculator viste sig at være meget nyttig til enkeltgruppeanalyse16; Formålet med mange metabolomics-eksperimenter er imidlertid differentiel analyse af to eller flere tilstande. Mens CorrelationCalculator kan anvendes på hver af grupperne separat for at generere delvise korrelationsnetværk for hver tilstand, begrænser denne tilgang antallet af prøver, der kan bruges til netværksgenerering. Da en tilstrækkelig stor stikprøvestørrelse er en af de største overvejelser i datadrevet analyse, er metoder, der kan udnytte alle tilgængelige prøver i dataene til at konstruere netværk, meget ønskelige. Denne tilgang implementeres i det andet værktøj, der præsenteres her, kaldet Filigran21. Filigran er afhængig af den tidligere offentliggjorte Differential Network Enrichment Analysis (DNEA) algoritme22. Tabel 1 viser applikationerne og arbejdsgangen for begge værktøjer.

Antal forsøgsbetingelser (k) k = 1 k = 2
Software værktøj Korrelationberegner Filigran
Input data • Metabolitter x Prøver datamatrix • Metabolitter x Prøver datamatrix
• Eksperimentelle grupper
Arbejdsproces
•Forbehandling
• Estimering af netværk
• Netværk klynger
• Berigelsesanalyse

• Log transformation; Automatisk skalering
• DSPC
• Via eksterne apps
•Nej

• Log transformation; Automatisk skalering
• Fælles netværksestimering
• Konsensus klyngedannelse
• NetGSA
Visualisering af data Via ekstern app, f.eks. Cytoscape Via ekstern app, f.eks. Cytoscape
Test af metaboliske moduler til associering med resultat af interesse (valgfrit) Via eksterne apps Via eksterne apps

Tabel 1: Anvendelsesområdet og arbejdsgangen for CorrelationCalculator og Filigran.

Protocol

1. KorrelationBeregner Download et eksempel på en kommasepareret inputfil, der indeholder en liste over metabolitter med eksperimentelle målinger ved http://metscape.med.umich.edu/kora_data_240.csv. Dobbeltklik på den downloadede prøvefil for at åbne den.Sørg for, at filen indeholder etiketter for både prøverne og metabolitterne. Da prøverne er i rækker, skal du bekræfte, at den første kolonne er prøvenavnene, og den første række er metabolitnavnene.<…

Representative Results

For at illustrere brugen af CorrelationCalculator konstruerede vi et delvist korrelationsnetværk ved hjælp af en delmængde af metabolomics-data fra KORA-populationsundersøgelsen beskrevet i Krumsiek et al.24. Datasættet indeholdt 151 metabolitter og 240 prøver. Figur 1 viser det resulterende partielle korrelationsnetværk, der blev visualiseret i Cytoscape. Netværket indeholder 148 noder og 272 kanter. Farven på knuderne repræsenterer metabolitter, d…

Discussion

Partielle korrelationsbaserede netværksanalysemetoder implementeret i CorrelationCalculator og Filigran hjælper med at overvinde nogle af begrænsningerne ved videnbaserede metaboliske vejanalyser, især for datasæt med en høj forekomst af ukendte metabolitter og begrænset dækning af metaboliske veje (f.eks. lipidomics-data). Disse værktøjer er blevet brugt i vid udstrækning af forskersamfundet til at analysere en bred vifte af metabolomics og lipidomics data 14,22,27,28,29,30<…

Declarações

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af NIH 1U01CA235487 bevilling.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

Referências

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/pt/65512?article_type=t

Play Video

Citar este artigo
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video