Summary

CorrelationCalculator 和 Filigree:用于代谢组学数据的数据驱动网络分析工具

Published: November 10, 2023
doi:

Summary

我们提出了 CorrelationCalculator 和 Filigree,这两个工具用于数据驱动的网络构建和代谢组学数据分析。 CorrelationCalculator 支持基于表达数据构建代谢物的单一相互作用网络,而 Filigree 允许构建差异网络,然后进行网络聚类和富集分析。

Abstract

组学数据分析的一个重大挑战是提取可操作的生物学知识。代谢组学也不例外。将单个代谢物水平的变化与特定生物过程联系起来的一般问题因非靶向液相色谱-质谱 (LC-MS) 研究中存在大量未知代谢物而变得更加复杂。此外,次级代谢和脂质代谢在现有通路数据库中的代表性很差。为了克服这些局限性,我们小组开发了几种用于数据驱动网络构建和分析的工具。其中包括 CorrelationCalculator 和 Filigree。当代谢物数量超过样品数量时,这两种工具都允许用户从实验代谢组学数据中构建基于部分相关性的网络。CorrelationCalculator 支持构建单个网络,而 Filigree 允许利用来自两组样本的数据构建差分网络,然后进行网络聚类和富集分析。我们将介绍这两种工具在分析现实生活中代谢组学数据方面的效用和应用。

Introduction

在过去的十年中,由于气相色谱-质谱(GC-MS)和液相色谱-质谱(LC-MS)等分析技术的进步,代谢组学已成为一门组学科学。这些技术可以同时测量数百到数千种小分子代谢物,从而创建复杂的多维数据集。代谢组学实验可以在靶向或非靶向模式下进行。靶向代谢组学实验可测量特定类别的代谢物。它们通常是假设驱动的,而非靶向方法试图测量尽可能多的代谢物,并且本质上是假设产生的。靶向检测通常包括内标,因此可以对目标代谢物进行绝对定量。相比之下,非靶向检测允许相对定量,并包括许多未知代谢物1

代谢组学数据分析是一个多步骤过程,需要利用许多专门的软件工具1。可分为以下三个主要步骤:(1)数据处理和质量控制,(2)统计分析,(3)生物数据解释。此处描述的工具旨在实现分析的后一步。

解释代谢组学数据的一种直观且流行的方法是将实验测量值映射到代谢途径上。为了实现这一点,已经设计了许多工具 2,3,4,5包括我们第6 组开发的 Metscape。通路图谱通常与富集分析相结合,这有助于确定最重要的通路 7,8。这些技术首先在基因表达数据分析中占有重要地位,并已成功应用于蛋白质组学和表观基因组学数据的分析9,10,11,12,13。然而,代谢组学数据的分析给基于知识的方法带来了许多挑战。首先,除了内源性代谢物外,代谢组学测定法还测量外源性化合物,包括来自营养和其他环境来源的化合物。这些化合物以及细菌产生的代谢物不能映射到人类或其他真核生物的代谢途径上。此外,次级代谢和脂质代谢的通路覆盖目前不允许在容易支持数据生物学解释的水平上进行高分辨率映射14,15

数据驱动的网络分析技术可以帮助克服这些挑战。例如,基于相关性的网络可以帮助推导已知和未知代谢物之间的关系,并促进未知物的注释16。虽然计算 Pearson 相关系数是建立代谢物之间线性关系的最直接方法,但缺点是它捕获了直接和间接关联17,18,19。另一种方法是计算可以区分直接关联和间接关联的偏相关系数。高斯图形建模 (GGM) 可用于估计偏相关网络。但是,GGM 要求样本量和特征数量具有可比性。在包含数千种代谢特征测量值的非靶向LC-MS数据中,很少满足这一条件。可以使用正则化技术来克服此限制。图形套索(Glasso)和节点回归是偏相关网络正则化估计的常用方法16,20

这里介绍的第一个生物信息学工具,CorrelationCalculator16,基于去偏稀疏偏相关(DSPC)算法。DSPC 依赖于去稀疏化的图形套索建模。该算法的基本假设是代谢物之间的连接数远小于样本数,即代谢物的偏相关网络稀疏。这一假设使DSPC能够利用正则化回归技术,使用更少的样本发现大量代谢物之间的连通性。此外,使用正则化回归估计的去偏步骤,它获得边缘参数的采样分布,这些参数可用于构建置信区间和检验感兴趣的假设(例如,存在/不存在单个或一组边缘)。因此,可以使用计算的 p 值来正式测试偏相关网络中边的存在与否。

CorrelationCalculator 被证明对单组分析非常有用16;然而,许多代谢组学实验的目标是对两种或多种条件进行差异分析。虽然 CorrelationCalculator 可以分别用于每个组,以为每个条件生成部分相关网络,但这种方法限制了可用于网络生成的样本数量。由于足够大的样本量是数据驱动分析中最大的考虑因素之一,因此非常需要能够利用数据中所有可用样本来构建网络的方法。这种方法在这里介绍的第二个工具中实现,称为 Filigree21。Filigree 依赖于先前发布的差分网络富集分析 (DNEA) 算法22表 1 显示了这两种工具的应用和工作流程。

实验条件数(k) k = 1 k = 2
软件工具 相关性计算器 精细
输入数据 • 代谢物 x 样品数据矩阵 • 代谢物 x 样品数据矩阵
• 实验组
工作流程
•预处理
• 网络估计
• 网络集群
• 富集分析

• 日志转换;自动缩放
• DSPC技术
• 通过外部应用程序
•不

• 日志转换;自动缩放
• 联合网络估计
• 共识聚类
• 网络GSA
数据可视化 通过外部应用程序,例如 Cytoscape 通过外部应用程序,例如 Cytoscape
测试代谢模块与感兴趣结果的关联(可选) 通过外部应用程序 通过外部应用程序

表 1:CorrelationCalculator 和 Filigree 的应用范围和工作流程。

Protocol

1. 相关性计算器 下载以逗号分隔的示例输入文件,其中包含代谢物列表,并在 http://metscape.med.umich.edu/kora_data_240.csv 处进行实验测量。 双击下载的示例文件将其打开。确保文件包含样品和代谢物的标签。 由于样品是成行的,请确认第一列是样品名称,第一行是代谢物名称。 下载 CorrelationCalculator Java 应用程序 (http://metscape.med.umich.edu/calcul…

Representative Results

为了说明 CorrelationCalculator 的使用, 我们使用 Krumsiek 等人 24 中描述的 KORA 群体研究的代谢组学数据子集构建了一个偏相关网络。该数据集包含 151 种代谢物和 240 个样品。 图 1 显示了在 Cytoscape 中可视化的偏相关网络。该网络包含 148 个节点和 272 条边。节点的颜色表示属于不同化学类别的代谢物,而边缘表示偏相关系数的调整p值(调整后的p值<0.05?…

Discussion

在 CorrelationCalculator 和 Filigree 中实现的基于部分相关性的网络分析方法有助于克服基于知识的代谢途径分析的一些局限性,特别是对于未知代谢物患病率高且代谢途径覆盖率有限的数据集(例如,脂质组学数据)。这些工具已被研究界广泛用于分析广泛的代谢组学和脂质组学数据14,22,27,28,29,30。</s…

Declarações

The authors have nothing to disclose.

Acknowledgements

这项工作得到了NIH 1U01CA235487资助的支持。

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

Referências

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/pt/65512?article_type=t

Play Video

Citar este artigo
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video