Summary

CorrelationCalculator et Filigree : outils pour l’analyse de réseau basée sur les données métabolomiques

Published: November 10, 2023
doi:

Summary

Nous présentons CorrelationCalculator et Filigree, deux outils pour la construction de réseaux basés sur les données et l’analyse des données métabolomiques. CorrelationCalculator prend en charge la création d’un réseau d’interaction unique de métabolites basé sur des données d’expression, tandis que Filigree permet de construire un réseau différentiel, suivi d’une analyse de clustering et d’enrichissement du réseau.

Abstract

L’un des principaux défis de l’analyse des données omiques est l’extraction de connaissances biologiques exploitables. La métabolomique ne fait pas exception. Le problème général de la relation entre les changements dans les niveaux de métabolites individuels et des processus biologiques spécifiques est aggravé par le grand nombre de métabolites inconnus présents dans les études non ciblées de chromatographie liquide et de spectrométrie de masse (LC-MS). De plus, le métabolisme secondaire et le métabolisme des lipides sont mal représentés dans les bases de données existantes sur les voies. Pour pallier ces limitations, notre groupe a développé plusieurs outils de construction et d’analyse de réseaux basés sur les données. Il s’agit notamment de CorrelationCalculator et de Filigree. Les deux outils permettent aux utilisateurs de construire des réseaux basés sur des corrélations partielles à partir de données métabolomiques expérimentales lorsque le nombre de métabolites dépasse le nombre d’échantillons. CorrelationCalculator prend en charge la construction d’un réseau unique, tandis que Filigree permet de créer un réseau différentiel à l’aide de données provenant de deux groupes d’échantillons, suivi d’une analyse de clustering et d’enrichissement du réseau. Nous décrirons l’utilité et l’application des deux outils pour l’analyse de données métabolomiques réelles.

Introduction

Au cours de la dernière décennie, la métabolomique a émergé en tant que science omique en raison des progrès des technologies analytiques telles que la chromatographie en phase gazeuse-spectrométrie de masse (GC-MS) et la chromatographie liquide-spectrométrie de masse (LC-MS). Ces techniques permettent de mesurer simultanément des centaines, voire des milliers de métabolites de petites molécules, créant ainsi des ensembles de données multidimensionnels complexes. Les expériences de métabolomique peuvent être réalisées en mode ciblé ou non ciblé. Des expériences de métabolomique ciblées mesurent des classes spécifiques de métabolites. Elles sont généralement fondées sur des hypothèses, tandis que les approches non ciblées tentent de mesurer autant de métabolites que possible et sont de nature à générer des hypothèses. Les tests ciblés incluent généralement des étalons internes et permettent ainsi une quantification absolue des métabolites d’intérêt. En revanche, les essais non ciblés permettent une quantification relative et incluent de nombreux métabolites inconnus1.

L’analyse des données métabolomiques est un processus en plusieurs étapes qui s’appuie sur de nombreux outils logiciels spécialisés1. Il peut être divisé en trois grandes étapes : (1) le traitement des données et le contrôle de la qualité, (2) l’analyse statistique et (3) l’interprétation des données biologiques. Les outils décrits ici sont conçus pour permettre la dernière étape de l’analyse.

Une façon intuitive et populaire d’interpréter les données métabolomiques consiste à cartographier les mesures expérimentales sur les voies métaboliques. De nombreux outils ont été conçus pour y parvenir 2,3,4,5, dont Metscape, développé par notre groupe 6. La cartographie des voies est souvent associée à l’analyse de l’enrichissement, qui permet d’identifier les voies les plus significatives 7,8. Ces techniques ont d’abord pris de l’importance dans l’analyse des données d’expression génique et ont été appliquées avec succès pour l’analyse des données protéomiques et épigénomiques 9,10,11,12,13. Cependant, l’analyse des données métabolomiques présente un certain nombre de défis pour les approches fondées sur les connaissances. Tout d’abord, en plus des métabolites endogènes, les tests métabolomiques mesurent les composés exogènes, y compris ceux qui proviennent de la nutrition et d’autres sources environnementales. Ces composés, ainsi que les métabolites produits par les bactéries, ne peuvent pas être cartographiés sur les voies humaines ou métaboliques d’autres organismes eucaryotes. De plus, la couverture des voies du métabolisme secondaire et du métabolisme des lipides ne permet pas actuellement une cartographie à haute résolution au niveau qui soutiendrait facilement l’interprétation biologique des données14,15.

Les techniques d’analyse de réseau basées sur les données peuvent aider à surmonter ces défis. Par exemple, les réseaux basés sur les corrélations peuvent aider à établir des relations entre les métabolites connus et inconnus et faciliter l’annotation des inconnues16. Bien que le calcul des coefficients de corrélation de Pearson soit l’approche la plus simple pour établir les relations linéaires entre les métabolites, l’inconvénient est qu’il capture à la fois les associations directes et indirectes17,18,19. Une alternative consiste à calculer des coefficients de corrélation partielle qui permettent de faire la distinction entre les associations directes et indirectes. La modélisation graphique gaussienne (GGM) peut être utilisée pour estimer les réseaux de corrélations partielles. Cependant, GGM exige que la taille de l’échantillon et le nombre d’entités soient comparables. Cette condition est rarement remplie dans les données LC-MS non ciblées qui contiennent des mesures pour des milliers de caractéristiques métaboliques. Des techniques de régularisation peuvent être utilisées pour surmonter cette limitation. Le lasso graphique (Glasso) et la régression noeudière sont des méthodes populaires pour l’estimation régularisée du réseau de corrélation partielle16,20.

Le premier des outils bioinformatiques présentés ici, CorrelationCalculator16, est basé sur l’algorithme de corrélation partielle creuse (DSPC). DSPC s’appuie sur une modélisation graphique au lasso dé-sparsifiée. L’hypothèse sous-jacente de l’algorithme est que le nombre de connexions entre les métabolites est considérablement plus petit que le nombre d’échantillons, c’est-à-dire que le réseau de corrélation partielle des métabolites est clairsemé. Cette hypothèse permet à DSPC de découvrir la connectivité entre un grand nombre de métabolites en utilisant moins d’échantillons, en tirant parti de techniques de régression régularisée. De plus, à l’aide d’une étape de dépolarisation pour les estimations de régression régularisées, il obtient des distributions d’échantillonnage pour les paramètres de bord qui peuvent être utilisées pour construire des intervalles de confiance et tester des hypothèses d’intérêt (par exemple, la présence ou l’absence d’un seul ou d’un groupe d’arêtes). La présence ou l’absence d’une arête dans le réseau de corrélation partielle peut ainsi être formellement testée à l’aide des valeurs p calculées.

CorrelationCalculator s’est avéré très utile pour l’analyse d’un seul groupe16 ; Cependant, l’objectif de nombreuses expériences métabolomiques est l’analyse différentielle de deux ou plusieurs conditions. Bien que CorrelationCalculator puisse être utilisé sur chacun des groupes séparément pour générer des réseaux de corrélation partiels pour chaque condition, cette approche limite le nombre d’échantillons pouvant être utilisés pour la génération de réseau. Étant donné qu’une taille d’échantillon suffisamment grande est l’une des considérations les plus importantes dans l’analyse basée sur les données, les méthodes qui peuvent tirer parti de tous les échantillons disponibles dans les données pour construire des réseaux sont hautement souhaitables. Cette approche est mise en œuvre dans le deuxième outil présenté ici, appelé Filigrane21. Filigree s’appuie sur l’algorithme d’analyse d’enrichissement différentiel de réseau (DNEA) précédemment publié22. Le tableau 1 présente les applications et le flux de travail des deux outils.

Nombre de conditions expérimentales (k) k = 1 k = 2
Outil logiciel Calculatrice de corrélation Filigrane
Données d’entrée • Matrice de données Métabolites x Échantillons • Matrice de données Métabolites x Échantillons
• Groupes expérimentaux
Flux de travail
•Prétraitement
• Estimation du réseau
• Mise en cluster de réseaux
• Analyse d’enrichissement

• Transformation des logs ; Mise à l’échelle automatique
• DSPC (en anglais seulement)
• Via des applications externes
•Non

• Transformation des logs ; Mise à l’échelle automatique
• Estimation d’un réseau commun
• Regroupement de consensus
• NetGSA (en anglais seulement)
Visualisation des données Via une application externe, par exemple Cytoscape Via une application externe, par exemple Cytoscape
Tester les modules métaboliques pour l’association avec le résultat d’intérêt (facultatif) Via des applications externes Via des applications externes

Tableau 1 : Champ d’application et flux de travail de CorrelationCalculator et Filigree.

Protocol

1. Calculateur de corrélation Téléchargez un exemple de fichier d’entrée délimité par des virgules contenant une liste de métabolites avec des mesures expérimentales au http://metscape.med.umich.edu/kora_data_240.csv. Double-cliquez sur le fichier d’exemple téléchargé pour l’ouvrir.Assurez-vous que le fichier contient des étiquettes pour les échantillons et les métabolites. Étant donné que les échantillons sont en lignes, vérifiez que la prem…

Representative Results

Pour illustrer l’utilisation de CorrelationCalculator, nous avons construit un réseau de corrélation partielle à l’aide d’un sous-ensemble des données métabolomiques de l’étude de population KORA décrite dans Krumsiek et al.24. L’ensemble de données contenait 151 métabolites et 240 échantillons. La figure 1 montre le réseau de corrélation partielle qui en résulte et qui a été visualisé dans Cytoscape. Le réseau contient 148 nœuds e…

Discussion

Les méthodes d’analyse de réseau basées sur les corrélations partielles mises en œuvre dans CorrelationCalculator et Filigree aident à surmonter certaines des limites des analyses des voies métaboliques basées sur les connaissances, en particulier pour les ensembles de données avec une prévalence élevée de métabolites inconnus et une couverture limitée des voies métaboliques (par exemple, les données lipidomiques). Ces outils ont été largement utilisés par la communauté des chercheurs pour analyser …

Declarações

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par une subvention NIH 1U01CA235487.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

Referências

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/pt/65512?article_type=t

Play Video

Citar este artigo
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video