Summary

通过微生物组数据中的线性判别分析效应大小(LEfSe)辅助选择生物标志物

Published: May 16, 2022
doi:

Summary

LEfSe(LDA效应大小)是一种用于高维生物标志物挖掘的工具,用于识别基因组特征(例如基因,途径和分类法),这些特征显着表征微生物组数据中的两个或多个组。

Abstract

人们越来越关注环境和健康中的封闭生物基因组。为了探索和揭示不同样品或环境之间的组间差异,发现组间具有统计学差异的生物标志物至关重要。线性判别分析效应大小(LEfSe)的应用可以帮助找到良好的生物标志物。基于原始基因组数据,根据分类群或基因对不同序列进行质量控制和定量。首先,使用Kruskal-Wallis秩检验来区分统计组和生物组之间的特定差异。然后,在上一步中获得的两组之间进行Wilcoxon秩检验,以评估差异是否一致。最后,进行线性判别分析(LDA),以评估生物标志物对基于LDA评分的显著不同组的影响。总而言之,LEfSe为鉴定表征生物组间统计差异的基因组生物标志物提供了便利。

Introduction

生物标志物是可以测量的生物学特征,可以指示一些现象,如感染,疾病或环境。其中,功能性生物标志物可以是单一物种的特定生物学功能或某些物种共有的,如基因、蛋白质、代谢物和通路等。此外,分类生物标志物表明一种不寻常的物种,一组生物(王国,门,类,目,科,属,物种),扩增子序列变异(ASV)1或操作分类单位(OTU)2。为了更快,更准确地找到生物标志物,需要一种分析生物数据的工具。类之间的差异可以通过LFSe与统计显著性的标准测试以及编码生物学一致性和效应相关性的其他测试3来解释。LEfSe可作为星系模块,conda公式,docker图像提供,并包含在bioBakery(VM和cloud)4中。通常,微多样性分析通常使用非参数测试来检测样本群落的不确定分布。秩和检验是一种非参数检验方法,它使用样本的秩来代替样本的值。根据样本组的差异,可以分为两个具有Wilcoxon秩和测试的样本和具有Kruskal-Wallis测试56的多个样本。值得注意的是,当多组样本之间存在显着差异时,应执行多个样本成对比较的秩和检验。LDA(代表线性判别分析)由Ronald Fisher于1936年发明,是一种监督学习,也称为Fisher’s Linear Discriminant7。它是当前机器学习数据挖掘领域的经典和流行的算法。

在这里,LEfSe检测已由Conda和Galaxy服务器进行了优化。分析三组16S rRNA基因序列,以证明不同组间微生物群落LDA评分和可视化结果的显著差异。

Protocol

注意:该协议的来源和修改来自Segata等人的研究。该方法在 https://bitbucket.org/biobakery/biobakery/wiki/lefse 中提供。 1. 准备输入文件进行分析 准备 LEfSe 的输入文件(表 1),该文件可由许多工作流8 或之前的协议9 与原始文件(示例文件和相应的物种注释文件)轻松生成。 2. LEfSe原生?…

Representative Results

通过分析三个样品的16S rRNA基因序列,每组具有显着差异的微生物群落的LDA评分如图 8所示。直方图的颜色表示不同的组,而长度表示LDA评分,这是不同组间差异显著的物种的影响。直方图显示LDA评分大于预设值的具有显著差异的物种。默认预设值为 2.0,因此图中仅显示大于 2.0 的 LDA 分数(横坐标)的绝对值。 不同分类水平之间具有显著差异的生物标?…

Discussion

这里描述了用于鉴定和表征不同组内生物标志物的方案。该方案可以很容易地适应其他样品类型,例如微生物的OTU。LEfSe的统计方法可以找到每组中的特征微生物(默认为LDA>2),即该组中相对于其他12种微生物更丰富的微生物。LEfSe在本机和Web Linux版本中都可用,用户还可以在网页上执行LEfSe分析。LEfSe 基于 LDA 算法,需要一个物种级别来绘制物种树。通过应用该工具,可以比较?…

Divulgations

The authors have nothing to disclose.

Acknowledgements

这项工作得到了中央公益研究所基本科研基金(TKS170205)和科技发展基金会以及天津市水运工程研究所(TIWTE)的资助。M.O.T.(KJFZJJ170201)。

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).
check_url/fr/61715?article_type=t

Play Video

Citer Cet Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video