Summary

CorrelationCalculator und Filigrane: Werkzeuge zur datengetriebenen Netzwerkanalyse von Metabolomik-Daten

Published: November 10, 2023
doi:

Summary

Wir stellen CorrelationCalculator und Filigree vor, zwei Werkzeuge für den datengesteuerten Netzwerkaufbau und die Analyse von Metabolomik-Daten. CorrelationCalculator unterstützt den Aufbau eines einzelnen Interaktionsnetzwerks von Metaboliten auf der Grundlage von Expressionsdaten, während Filigran den Aufbau eines differentiellen Netzwerks ermöglicht, gefolgt von Netzwerk-Clustering und Anreicherungsanalyse.

Abstract

Eine große Herausforderung bei der Analyse von Omics-Daten ist die Gewinnung von verwertbarem biologischem Wissen. Die Metabolomik ist da keine Ausnahme. Das allgemeine Problem, Veränderungen in den Konzentrationen einzelner Metaboliten mit spezifischen biologischen Prozessen in Verbindung zu bringen, wird durch die große Anzahl unbekannter Metaboliten verschärft, die in ungezielten Flüssigchromatographie-Massenspektrometrie-Studien (LC-MS) vorhanden sind. Darüber hinaus sind der Sekundärstoffwechsel und der Fettstoffwechsel in bestehenden Signalwegdatenbanken nur unzureichend vertreten. Um diese Einschränkungen zu überwinden, hat unsere Gruppe mehrere Tools für den datengesteuerten Netzwerkaufbau und die Analyse entwickelt. Dazu gehören CorrelationCalculator und Filigree. Beide Tools ermöglichen es Benutzern, partielle korrelationsbasierte Netzwerke aus experimentellen Metabolomik-Daten zu erstellen, wenn die Anzahl der Metaboliten die Anzahl der Proben übersteigt. CorrelationCalculator unterstützt den Aufbau eines einzelnen Netzwerks, während Filigran den Aufbau eines differenziellen Netzwerks unter Verwendung von Daten aus zwei Gruppen von Stichproben ermöglicht, gefolgt von Netzwerk-Clustering und Anreicherungsanalyse. Wir werden den Nutzen und die Anwendung beider Werkzeuge für die Analyse realer Metabolomics-Daten beschreiben.

Introduction

In den letzten zehn Jahren hat sich die Metabolomik aufgrund von Fortschritten in analytischen Technologien wie der Gaschromatographie-Massenspektrometrie (GC-MS) und der Flüssigkeitschromatographie-Massenspektrometrie (LC-MS) zu einer Omics-Wissenschaft entwickelt. Diese Techniken ermöglichen die gleichzeitige Messung von Hunderten bis Tausenden von niedermolekularen Metaboliten, wodurch komplexe mehrdimensionale Datensätze erstellt werden. Metabolomics-Experimente können im gezielten oder ungezielten Modus durchgeführt werden. Gezielte Metabolomik-Experimente messen bestimmte Klassen von Metaboliten. Sie sind in der Regel hypothesengetrieben, während ungezielte Ansätze versuchen, so viele Metaboliten wie möglich zu messen, und hypothesengenerierender Natur sind. Gezielte Assays enthalten in der Regel interne Standards und ermöglichen so eine absolute Quantifizierung der interessierenden Metaboliten. Im Gegensatz dazu ermöglichen ungezielte Assays eine relative Quantifizierung und umfassen viele unbekannte Metaboliten1.

Die Analyse von Metabolomik-Daten ist ein mehrstufiger Prozess, der viele spezialisierte Software-Tools nutzt1. Es kann in die folgenden drei Hauptschritte unterteilt werden: (1) Datenverarbeitung und Qualitätskontrolle, (2) statistische Analyse und (3) Interpretation biologischer Daten. Die hier beschriebenen Werkzeuge sind so konzipiert, dass sie den letzten Schritt der Analyse ermöglichen.

Eine intuitive und beliebte Methode zur Interpretation von Metabolomik-Daten besteht darin, die experimentellen Messungen auf Stoffwechselwege abzubilden. Um diese 2,3,4,5 zu erreichen, wurden zahlreiche Tools entwickelt, darunter Metscape, das von unserer Gruppe6 entwickelt wurde. Die Kartierung der Signalwege wird häufig mit einer Anreicherungsanalyse kombiniert, die dabei hilft, die wichtigsten Signalwege zu identifizieren 7,8. Diese Techniken erlangten erstmals bei der Analyse von Genexpressionsdaten an Bedeutung und wurden erfolgreich für die Analyse von Proteomik- und Epigenomik-Daten eingesetzt 9,10,11,12,13. Die Analyse von Metabolomics-Daten stellt jedoch eine Reihe von Herausforderungen für wissensbasierte Ansätze dar. Erstens messen Metabolomik-Assays zusätzlich zu den endogenen Metaboliten exogene Verbindungen, einschließlich solcher, die aus der Ernährung und anderen Umweltquellen stammen. Diese Verbindungen sowie die von Bakterien produzierten Metaboliten können nicht auf menschliche oder metabolische Wege anderer eukaryotischer Organismen abgebildet werden. Darüber hinaus erlaubt die Abdeckung des Sekundärstoffwechsels und des Lipidstoffwechsels derzeit keine hochauflösende Kartierung auf einem Niveau, das die biologische Interpretation der Daten leicht unterstützen würde14,15.

Datengesteuerte Netzwerkanalysetechniken können helfen, diese Herausforderungen zu meistern. Zum Beispiel können korrelationsbasierte Netzwerke helfen, Beziehungen zwischen bekannten und unbekannten Metaboliten abzuleiten und die Annotation der Unbekannten zu erleichtern16. Während die Berechnung der Pearson-Korrelationskoeffizienten der einfachste Ansatz ist, um die linearen Beziehungen zwischen Metaboliten zu ermitteln, besteht der Nachteil darin, dass sie sowohl direkte als auch indirekte Assoziationen erfasst17,18,19. Eine Alternative besteht darin, partielle Korrelationskoeffizienten zu berechnen, die zwischen direkten und indirekten Assoziationen unterscheiden können. Die Gaußsche grafische Modellierung (GGM) kann zur Schätzung partieller Korrelationsnetzwerke verwendet werden. GGM verlangt jedoch, dass die Stichprobengröße und die Anzahl der Merkmale vergleichbar sind. Diese Bedingung ist bei ungezielten LC-MS-Daten, die Messungen für Tausende von Stoffwechselmerkmalen enthalten, selten erfüllt. Regularisierungstechniken können verwendet werden, um diese Einschränkung zu überwinden. Graphisches Lasso (Glasso) und knotenweise Regression sind beliebte Methoden zur regularisierten Schätzung des partiellen Korrelationsnetzwerks16,20.

Das erste der hier vorgestellten Bioinformatik-Werkzeuge, CorrelationCalculator16, basiert auf dem Debiased Sparse Partial Correlation (DSPC)-Algorithmus. DSPC stützt sich auf die entsparsifizierte grafische Lasso-Modellierung. Dem Algorithmus liegt die Annahme zugrunde, dass die Anzahl der Verbindungen zwischen den Metaboliten deutlich kleiner ist als die Anzahl der Proben, d.h. das partielle Korrelationsnetzwerk der Metaboliten ist spärlich. Diese Annahme ermöglicht es DSPC, die Konnektivität zwischen einer großen Anzahl von Metaboliten mit weniger Proben zu entdecken und dabei regulierte Regressionstechniken zu nutzen. Darüber hinaus erhält es unter Verwendung eines Debiasing-Schritts für die regularisierten Regressionsschätzungen Stichprobenverteilungen für die Kantenparameter, die verwendet werden können, um Konfidenzintervalle zu konstruieren und Hypothesen von Interesse zu testen (z. B. Vorhandensein/Fehlen einer einzelnen oder einer Gruppe von Kanten). Das Vorhandensein oder Fehlen einer Kante im partiellen Korrelationsnetzwerk kann somit formal mit den berechneten p-Werten getestet werden.

CorrelationCalculator erwies sich als sehr nützlich für die Einzelgruppenanalyse16; Das Ziel vieler Metabolomics-Experimente ist jedoch die differentielle Analyse von zwei oder mehr Bedingungen. Während CorrelationCalculator für jede der Gruppen separat eingesetzt werden kann, um partielle Korrelationsnetzwerke für jede Bedingung zu generieren, begrenzt dieser Ansatz die Anzahl der Stichproben, die für die Netzwerkgenerierung verwendet werden können. Da eine ausreichend große Stichprobengröße eine der wichtigsten Überlegungen bei der datengetriebenen Analyse ist, sind Methoden, die alle verfügbaren Stichproben in den Daten nutzen können, um Netzwerke zu konstruieren, sehr wünschenswert. Dieser Ansatz wird im zweiten hier vorgestellten Tool mit dem Namen Filigran21 umgesetzt. Filigree stützt sich auf den zuvor veröffentlichten DNEA-Algorithmus (Differential Network Enrichment Analysis)22. Tabelle 1 zeigt die Anwendungen und den Workflow beider Tools.

Anzahl der Versuchsbedingungen (k) k = 1 k = 2
Programmentwicklungssystem Korrelationsrechner Filigran
Eingangsdaten • Metaboliten x Proben Datenmatrix • Metaboliten x Proben Datenmatrix
• Experimentelle Gruppen
Arbeitsablauf
•Vorbehandlung
• Schätzung des Netzwerks
• Netzwerk-Clustering
• Anreicherungsanalyse

• Log-Transformation; Automatische Skalierung
• DSPC
• Über externe Apps
•Nein

• Log-Transformation; Automatische Skalierung
• Schätzung des gemeinsamen Netzes
• Konsens-Clustering
• NetGSA
Datenvisualisierung Über externe App, z.B. Cytoscape Über externe App, z.B. Cytoscape
Testen von Stoffwechselmodulen auf die Assoziation mit dem interessierenden Ergebnis (optional) Über externe Apps Über externe Apps

Tabelle 1: Der Anwendungsbereich und der Workflow von CorrelationCalculator und Filigree.

Protocol

1. Korrelationsrechner Laden Sie eine kommagetrennte Beispieleingabedatei herunter, die eine Liste der Metaboliten mit experimentellen Messungen bei http://metscape.med.umich.edu/kora_data_240.csv enthält. Doppelklicken Sie auf die heruntergeladene Beispieldatei, um sie zu öffnen.Stellen Sie sicher, dass die Datei Etiketten sowohl für die Proben als auch für die Metaboliten enthält. Da sich die Proben in Zeilen befinden, vergewissern Sie sich, dass die erste Sp…

Representative Results

Um die Verwendung von CorrelationCalculator zu veranschaulichen, konstruierten wir ein partielles Korrelationsnetzwerk unter Verwendung einer Teilmenge der Metabolomik-Daten aus der KORA-Populationsstudie, die in Krumsiek et al.24 beschrieben wurden. Der Datensatz enthielt 151 Metaboliten und 240 Proben. Abbildung 1 zeigt das resultierende partielle Korrelationsnetzwerk, das in Cytoscape visualisiert wurde. Das Netzwerk umfasst 148 Knoten und 272 Edges. Die F…

Discussion

Partielle korrelationsbasierte Netzwerkanalysemethoden, die in CorrelationCalculator und Filigree implementiert sind, tragen dazu bei, einige der Einschränkungen wissensbasierter Stoffwechselweganalysen zu überwinden, insbesondere für Datensätze mit einer hohen Prävalenz unbekannter Metaboliten und einer begrenzten Abdeckung von Stoffwechselwegen (z. B. Lipidomik-Daten). Diese Werkzeuge werden von der Forschungsgemeinschaft häufig verwendet, um ein breites Spektrum von Metabolomik- und Lipidomik-Daten zu analysiere…

Declarações

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde durch einen NIH 1U01CA235487 Zuschuss unterstützt.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

Referências

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/pt/65512?article_type=t

Play Video

Citar este artigo
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video