我们提出了 CorrelationCalculator 和 Filigree,这两个工具用于数据驱动的网络构建和代谢组学数据分析。 CorrelationCalculator 支持基于表达数据构建代谢物的单一相互作用网络,而 Filigree 允许构建差异网络,然后进行网络聚类和富集分析。
组学数据分析的一个重大挑战是提取可操作的生物学知识。代谢组学也不例外。将单个代谢物水平的变化与特定生物过程联系起来的一般问题因非靶向液相色谱-质谱 (LC-MS) 研究中存在大量未知代谢物而变得更加复杂。此外,次级代谢和脂质代谢在现有通路数据库中的代表性很差。为了克服这些局限性,我们小组开发了几种用于数据驱动网络构建和分析的工具。其中包括 CorrelationCalculator 和 Filigree。当代谢物数量超过样品数量时,这两种工具都允许用户从实验代谢组学数据中构建基于部分相关性的网络。CorrelationCalculator 支持构建单个网络,而 Filigree 允许利用来自两组样本的数据构建差分网络,然后进行网络聚类和富集分析。我们将介绍这两种工具在分析现实生活中代谢组学数据方面的效用和应用。
在过去的十年中,由于气相色谱-质谱(GC-MS)和液相色谱-质谱(LC-MS)等分析技术的进步,代谢组学已成为一门组学科学。这些技术可以同时测量数百到数千种小分子代谢物,从而创建复杂的多维数据集。代谢组学实验可以在靶向或非靶向模式下进行。靶向代谢组学实验可测量特定类别的代谢物。它们通常是假设驱动的,而非靶向方法试图测量尽可能多的代谢物,并且本质上是假设产生的。靶向检测通常包括内标,因此可以对目标代谢物进行绝对定量。相比之下,非靶向检测允许相对定量,并包括许多未知代谢物1。
代谢组学数据分析是一个多步骤过程,需要利用许多专门的软件工具1。可分为以下三个主要步骤:(1)数据处理和质量控制,(2)统计分析,(3)生物数据解释。此处描述的工具旨在实现分析的后一步。
解释代谢组学数据的一种直观且流行的方法是将实验测量值映射到代谢途径上。为了实现这一点,已经设计了许多工具 2,3,4,5,包括我们第6 组开发的 Metscape。通路图谱通常与富集分析相结合,这有助于确定最重要的通路 7,8。这些技术首先在基因表达数据分析中占有重要地位,并已成功应用于蛋白质组学和表观基因组学数据的分析9,10,11,12,13。然而,代谢组学数据的分析给基于知识的方法带来了许多挑战。首先,除了内源性代谢物外,代谢组学测定法还测量外源性化合物,包括来自营养和其他环境来源的化合物。这些化合物以及细菌产生的代谢物不能映射到人类或其他真核生物的代谢途径上。此外,次级代谢和脂质代谢的通路覆盖目前不允许在容易支持数据生物学解释的水平上进行高分辨率映射14,15。
数据驱动的网络分析技术可以帮助克服这些挑战。例如,基于相关性的网络可以帮助推导已知和未知代谢物之间的关系,并促进未知物的注释16。虽然计算 Pearson 相关系数是建立代谢物之间线性关系的最直接方法,但缺点是它捕获了直接和间接关联17,18,19。另一种方法是计算可以区分直接关联和间接关联的偏相关系数。高斯图形建模 (GGM) 可用于估计偏相关网络。但是,GGM 要求样本量和特征数量具有可比性。在包含数千种代谢特征测量值的非靶向LC-MS数据中,很少满足这一条件。可以使用正则化技术来克服此限制。图形套索(Glasso)和节点回归是偏相关网络正则化估计的常用方法16,20。
这里介绍的第一个生物信息学工具,CorrelationCalculator16,基于去偏稀疏偏相关(DSPC)算法。DSPC 依赖于去稀疏化的图形套索建模。该算法的基本假设是代谢物之间的连接数远小于样本数,即代谢物的偏相关网络稀疏。这一假设使DSPC能够利用正则化回归技术,使用更少的样本发现大量代谢物之间的连通性。此外,使用正则化回归估计的去偏步骤,它获得边缘参数的采样分布,这些参数可用于构建置信区间和检验感兴趣的假设(例如,存在/不存在单个或一组边缘)。因此,可以使用计算的 p 值来正式测试偏相关网络中边的存在与否。
CorrelationCalculator 被证明对单组分析非常有用16;然而,许多代谢组学实验的目标是对两种或多种条件进行差异分析。虽然 CorrelationCalculator 可以分别用于每个组,以为每个条件生成部分相关网络,但这种方法限制了可用于网络生成的样本数量。由于足够大的样本量是数据驱动分析中最大的考虑因素之一,因此非常需要能够利用数据中所有可用样本来构建网络的方法。这种方法在这里介绍的第二个工具中实现,称为 Filigree21。Filigree 依赖于先前发布的差分网络富集分析 (DNEA) 算法22。 表 1 显示了这两种工具的应用和工作流程。
实验条件数(k) | k = 1 | k = 2 |
软件工具 | 相关性计算器 | 精细 |
输入数据 | • 代谢物 x 样品数据矩阵 | • 代谢物 x 样品数据矩阵 • 实验组 |
工作流程 •预处理 • 网络估计 • 网络集群 • 富集分析 |
• 日志转换;自动缩放 • DSPC技术 • 通过外部应用程序 •不 |
• 日志转换;自动缩放 • 联合网络估计 • 共识聚类 • 网络GSA |
数据可视化 | 通过外部应用程序,例如 Cytoscape | 通过外部应用程序,例如 Cytoscape |
测试代谢模块与感兴趣结果的关联(可选) | 通过外部应用程序 | 通过外部应用程序 |
表 1:CorrelationCalculator 和 Filigree 的应用范围和工作流程。
在 CorrelationCalculator 和 Filigree 中实现的基于部分相关性的网络分析方法有助于克服基于知识的代谢途径分析的一些局限性,特别是对于未知代谢物患病率高且代谢途径覆盖率有限的数据集(例如,脂质组学数据)。这些工具已被研究界广泛用于分析广泛的代谢组学和脂质组学数据14,22,27,28,29,30。</s…
The authors have nothing to disclose.
这项工作得到了NIH 1U01CA235487资助的支持。
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |