Summary
LEfSe(LDA效应大小)是一种用于高维生物标志物挖掘的工具,用于识别基因组特征(例如基因,途径和分类法),这些特征显着表征微生物组数据中的两个或多个组。
Abstract
人们越来越关注环境和健康中的封闭生物基因组。为了探索和揭示不同样品或环境之间的组间差异,发现组间具有统计学差异的生物标志物至关重要。线性判别分析效应大小(LEfSe)的应用可以帮助找到良好的生物标志物。基于原始基因组数据,根据分类群或基因对不同序列进行质量控制和定量。首先,使用Kruskal-Wallis秩检验来区分统计组和生物组之间的特定差异。然后,在上一步中获得的两组之间进行Wilcoxon秩检验,以评估差异是否一致。最后,进行线性判别分析(LDA),以评估生物标志物对基于LDA评分的显著不同组的影响。总而言之,LEfSe为鉴定表征生物组间统计差异的基因组生物标志物提供了便利。
Introduction
生物标志物是可以测量的生物学特征,可以指示一些现象,如感染,疾病或环境。其中,功能性生物标志物可以是单一物种的特定生物学功能或某些物种共有的,如基因、蛋白质、代谢物和通路等。此外,分类生物标志物表明一种不寻常的物种,一组生物(王国,门,类,目,科,属,物种),扩增子序列变异(ASV)1或操作分类单位(OTU)2。为了更快,更准确地找到生物标志物,需要一种分析生物数据的工具。类之间的差异可以通过LFSe与统计显著性的标准测试以及编码生物学一致性和效应相关性的其他测试3来解释。LEfSe可作为星系模块,conda公式,docker图像提供,并包含在bioBakery(VM和cloud)4中。通常,微多样性分析通常使用非参数测试来检测样本群落的不确定分布。秩和检验是一种非参数检验方法,它使用样本的秩来代替样本的值。根据样本组的差异,可以分为两个具有Wilcoxon秩和测试的样本和具有Kruskal-Wallis测试5,6的多个样本。值得注意的是,当多组样本之间存在显着差异时,应执行多个样本成对比较的秩和检验。LDA(代表线性判别分析)由Ronald Fisher于1936年发明,是一种监督学习,也称为Fisher's Linear Discriminant7。它是当前机器学习数据挖掘领域的经典和流行的算法。
在这里,LEfSe检测已由Conda和Galaxy服务器进行了优化。分析三组16S rRNA基因序列,以证明不同组间微生物群落LDA评分和可视化结果的显著差异。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
注意:该协议的来源和修改来自Segata等人的研究。该方法在 https://bitbucket.org/biobakery/biobakery/wiki/lefse 中提供。
1. 准备输入文件进行分析
- 准备 LEfSe 的输入文件(表 1),该文件可由许多工作流8 或之前的协议9 与原始文件(示例文件和相应的物种注释文件)轻松生成。
2. LEfSe原生分析(仅限于Linux服务器)
- LEfSe 安装
注意:建议将 LEfSe 管道与 Conda10 一起安装。- 运行以下命令以排除依赖项冲突的可能性。为 LEfSe 创建 conda 环境(建议执行此步骤,但不是必需的)。-n 代表环境名称。
$ conda create -n LEfSe-env - 要激活已创建的 LEfSe 环境,请运行:
$ source activate LEfSe-env - 要使用通道 bioBakery 安装 LEfSe,其中 -c 代表通道名称,请运行:
$ conda install -c biobakery lefse
- 运行以下命令以排除依赖项冲突的可能性。为 LEfSe 创建 conda 环境(建议执行此步骤,但不是必需的)。-n 代表环境名称。
- 格式化数据格式
- 运行以下命令,将原始文件的格式设置为 LEfSe 的内部格式。Table.txt 是输入文件,Table-reformat.in 是输出文件。-c 用于设置功能,该功能用作类(默认 1),-o 用于设置规范化值(默认值 -1.0 表示无规范化)。
$ format_input.py 表.txt Table-reformat.in -c 1 -o 1000000
- 运行以下命令,将原始文件的格式设置为 LEfSe 的内部格式。Table.txt 是输入文件,Table-reformat.in 是输出文件。-c 用于设置功能,该功能用作类(默认 1),-o 用于设置规范化值(默认值 -1.0 表示无规范化)。
- 线性判别分析 (LDA) 效应大小的计算
- 运行以下命令。此步骤的目的是执行上一个结果的 LDA 并生成用于可视化的结果文件。Table-reformat.in 是使用上一步生成的,并在此步骤中用作输入文件。Table-reformat.res 是结果文件。
$ run_lefse.py Table-reformat.in Table-reformat.res
- 运行以下命令。此步骤的目的是执行上一个结果的 LDA 并生成用于可视化的结果文件。Table-reformat.in 是使用上一步生成的,并在此步骤中用作输入文件。Table-reformat.res 是结果文件。
- 按图显示
- 绘制 LEfSe 结果。要在pdf文件中绘制生物标志物的效应大小,.Table-reformat.res 是使用上一步生成的,LDA.pdf 是打印文件。–format 用于设置输出文件格式。
$ plot_res.py Table-reformat.res LDA.pdf --format pdf - 绘制包络图。绘制物种树并在分支图中显示生物标志物。包络图.pdf是输出文件。
$ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf -
绘制一个要素(可选) 绘制不同组间单个生物标志物的差异。-f 用于设置绘图的特征。如果设置了一个,则必须给出 –feature_name。
$ plot_features.py -f one --feature_name “k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales” --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf - 绘制差分特征(可选)以绘制所有特征,但要谨慎执行的工作太多。--存档用于选择是否压缩结果。./ 表示结果的路径。
$ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./
- 绘制 LEfSe 结果。要在pdf文件中绘制生物标志物的效应大小,.Table-reformat.res 是使用上一步生成的,LDA.pdf 是打印文件。–format 用于设置输出文件格式。
3. LEfSe在线分析(星系)
- 去哈特华纳银河服务器1 1:http://huttenhower.sph.harvard.edu/galaxy。
- 上传文件。按左窗格上的 向上 箭头按钮并上传文件。单击“ 选择本地文件 ”以选择输入文件并选择格式 表格,然后单击“ 开始 ”按钮。
注意:请参阅网页(https://bitbucket.org/biobakery/biobakery/wiki/lefse),请使用脚本(taxonomy_summary。R)生成LFSe的输入文件,并且需要格式(每列都有组名,每行都有不同级别的注释,用“|”分隔)如 表1所示。上传过程的示意图如图 1所示。 - 设置 LEfSe 的数据格式。单击 LEfSe |左窗格中的“设置 LEfSe 的数据格式 ”链接,选择文件中类的特定行,然后单击“ 执行 ”按钮。操作过程和所用参数的示意图如图 2所示。
- 计算 LDA 效应大小。单击 LEfSe |左窗格中的 LDA 效应大小 (LEfSe) 链接,并根据分析要求选择参数值。单击“ 执行”。操作过程和所用参数的示意图如图 3所示。
- 绘制 LEfSe 结果。单击 LEfSe |在左窗格中绘制 LEfSe 结果 链接,然后单击“ 执行 ”按钮。操作过程和所用参数的示意图概述如图 4所示。
- 绘制包络图。单击左窗格中的 “绘制包络图 ”,然后在选择参数值后单击“ 执行 ”按钮。操作过程和所用参数的示意图如图 5所示。
- 通过单击左窗格中的 “绘制一个特征 ”,然后在选择参数值后单击“ 执行 ”按钮来绘制一个特征。操作过程和所用参数的示意图如图 6所示。
- 通过单击左侧窗格上的 “绘制差异要素 ”,然后在选择参数值后单击“ 执行 ”按钮来绘制差分要素。操作过程和所用参数的示意图如图 7所示。
注意:这些生成的数字可以可视化,并根据右窗格中的结果输出进行下载。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
通过分析三个样品的16S rRNA基因序列,每组具有显着差异的微生物群落的LDA评分如图 8所示。直方图的颜色表示不同的组,而长度表示LDA评分,这是不同组间差异显著的物种的影响。直方图显示LDA评分大于预设值的具有显著差异的物种。默认预设值为 2.0,因此图中仅显示大于 2.0 的 LDA 分数(横坐标)的绝对值。
不同分类水平之间具有显著差异的生物标志物和树种如 图9所示。从内向外辐射的圆圈代表从门到属的分类级别(最里面的黄色圆圈是王国)。每个小圆在不同分类水平上的直径表示相对丰度的大小。无显著差异的物种呈均匀的黄色,显著不同的物种生物标志物用相应的组着色。A类、B类和C类是收集的微生物样本的组名。红色节点代表在红色组(A)中发挥重要作用的微生物组;绿色节点代表在绿色组(B)中发挥重要作用的微生物组;和蓝色节点代表在蓝色组(C)中发挥重要作用的微生物组。图中未显示的生物标志物的相应物种名称显示在右侧,字母编号与图中的字母数字相对应(出于美学目的,仅默认显示从门到科的差异物种)。
根据LFSe结果,一种生物标志物在不同组之间具有差异的丰度如图 10所示。在相对丰度条形图中,实线表示平均相对丰度,虚线表示相对丰度的中位数,每列表示不同组中每个样本的相对丰度。
表 1:在线 LEfSe 分析的示例文件。请点击此处下载此表。
图 1:上传过程示意图。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 2:更改数据格式的操作过程的示意图概述。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 3:用于计算 LDA 效应大小的操作过程的示意图。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 4:绘制 LEfSe 结果的操作过程的示意图概述。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 5:绘制包络图的操作过程的示意图。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 6:绘制一个要素的操作过程的示意图概述。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 7:绘制差分特征的操作过程示意图。 点击图上按顺序排列的红色数字。 请点击此处查看此图的大图。
图 8:LDA 值分布的直方图。 采用LDA效应大小对各组差异显著的微生物群落LDA评分进行影响和相关性分析。 请按此下载此图。
图 9:包络图。 该协议获得的分支图的典型图,其能够表示三组的不同分类级别之间的差异。 请点击此处查看此图的大图。
图 10:一个特征图。 根据LFSe results.is 显示的一种生物标志物的丰度条形码,该生物标志物在不同组之间具有差异。 请点击此处查看此图的大图。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
这里描述了用于鉴定和表征不同组内生物标志物的方案。该方案可以很容易地适应其他样品类型,例如微生物的OTU。LEfSe的统计方法可以找到每组中的特征微生物(默认为LDA>2),即该组中相对于其他12种微生物更丰富的微生物。LEfSe在本机和Web Linux版本中都可用,用户还可以在网页上执行LEfSe分析。LEfSe 基于 LDA 算法,需要一个物种级别来绘制物种树。通过应用该工具,可以比较组之间的相对丰度。所有差异生物标志物都可以在单个图形中绘制。此外,单个生物标志物或所有生物标志物可以分批绘制。
无论 LEfSe 是通过本机服务器还是在线站点执行的,都有很多可调参数来绘制所需的图片。由于输入文件结构复杂,需要将其转换为首选数据格式以进一步分析LFSe,因此还开发了一些一站式服务。因此,优化更简单的操作可能具有挑战性。另一方面,使用 LEfSe 分析复杂数据时存在一些限制。LDA 投影的特征比类别小一维,如果需要更多特征,则引入其他方法。LDA的变体可能会解决一些困难。例如,如果原始数据在投影后无法很好地分离,则内核LDA是一种解决方案。由于LDA的计算量与数据的维度有关,因此2DLDA可以大大减少LDA的计算量。LDA和PCA都是常用的降维技术。PCA(主成分分析)降维与数据维数直接相关,投影坐标系是正交的。但是,LDA侧重于根据类别的标注进行分类的能力,因此投影坐标系通常不是正交的。
LEfSe为生物标志物的选择提供帮助。具有许多优点(例如,可调参数、各部件的详细结果、两组或多组间的应用),已被广泛应用13.随着对高维数据分析需求的不断增加,该方法的应用将越来越广泛,以探索影响人类健康和疾病的特征(生物体,分支,操作分类单位,基因或功能)的生物标志物。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有什么可透露的。
Acknowledgments
这项工作得到了中央公益研究所基本科研基金(TKS170205)和科技发展基金会以及天津市水运工程研究所(TIWTE)的资助。M.O.T.(KJFZJJ170201)。
Materials
Name | Company | Catalog Number | Comments |
No materials used |
References
- Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
- Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
- Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
- McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
- Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
- Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
- Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
- Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
- Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
- Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
- Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
- Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
- Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).