Summary

Assisteret udvælgelse af biomarkører ved lineær diskriminantanalyseeffektstørrelse (LEfSe) i mikrobiomdata

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) er et værktøj til højdimensionel biomarkørminedrift til at identificere genomiske træk (såsom gener, veje og taksonomier), der signifikant karakteriserer to eller flere grupper i mikrobiomdata.

Abstract

Der er stigende opmærksomhed mod lukkede biologiske genomer i miljøet og i sundheden. For at udforske og afsløre forskellene mellem grupper mellem forskellige prøver eller miljøer er det afgørende at opdage biomarkører med statistiske forskelle mellem grupper. Anvendelsen af lineær diskriminantanalyse Effect Size (LEfSe) kan hjælpe med at finde gode biomarkører. Baseret på de oprindelige genomdata udføres kvalitetskontrol og kvantificering af forskellige sekvenser baseret på taxa eller gener. For det første blev Kruskal-Wallis rangtesten brugt til at skelne mellem specifikke forskelle mellem statistiske og biologiske grupper. Derefter blev Wilcoxon-rangtesten udført mellem de to grupper, der blev opnået i det foregående trin for at vurdere, om forskellene var konsistente. Endelig blev der udført en lineær diskriminerende analyse (LDA) for at evaluere biomarkørernes indflydelse på signifikant forskellige grupper baseret på LDA-score. For at opsummere gav LEfSe bekvemmeligheden til at identificere genomiske biomarkører, der karakteriserer statistiske forskelle mellem biologiske grupper.

Introduction

Biomarkører er biologiske egenskaber, der kan måles og kan indikere nogle fænomener som infektion, sygdom eller miljø. Blandt dem kan funktionelle biomarkører være specifikke biologiske funktioner af enkelte arter eller fælles for nogle arter, såsom gen, protein, metabolit og veje. Desuden angiver taksonomiske biomarkører en usædvanlig art, en gruppe organismer (kongerige, phylum, klasse, orden, familie, slægt, art), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. For at finde biomarkører hurtigere og mere præcist er det nødvendigt med et værktøj til analyse af de biologiske data. Forskellene mellem klasserne kan forklares ved hjælp af LEfSe kombineret med standardtest for statistisk signifikans og yderligere test, der koder for biologisk konsistens og effektrelevans3. LEfSe er tilgængelig som et galaksemodul, en conda-formel, et dockerbillede og inkluderet i bioBakery (VM og cloud)4. Generelt bruger analysen af mikrobiel mangfoldighed ofte en ikke-parametrisk test for den usikre fordeling af et prøvesamfund. Rangsumstesten er en ikke-parametrisk testmetode, der bruger rangeringen af prøver til at erstatte værdien af prøver. Ifølge forskellen mellem prøvegrupper kan den opdeles i to prøver med Wilcoxon rank sum test og i flere prøver med Kruskal-Wallis test 5,6. Navnlig, når der er signifikante forskelle mellem flere grupper af prøver, bør der udføres en rangsumstest af parvis sammenligning af flere prøver. LDA (som står for Linear Discriminant Analysis) opfundet af Ronald Fisher i 1936, er en type overvåget læring, også kendt som Fisher’s Linear Discriminant7. Det er en klassisk og populær algoritme inden for det nuværende område af maskinindlæringsdata mining.

Her er LEfSe-analysen optimeret af Conda- og Galaxy-servere. Tre grupper af 16S rRNA-gensekvenser analyseres for at demonstrere de signifikante forskelle mellem forskellige grupper med LDA-score af mikrobielle samfund og visualiseringsresultater.

Protocol

BEMÆRK: Protokollen blev hentet og modificeret fra forskningen i Segata et al.3. Metoden findes på https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Udarbejdelse af inputfil til analyse Forbered inputfilen (tabel 1) i LEfSe, som let kan genereres af mange arbejdsgange8 eller tidligere protokoller9 med de originale filer (eksempelfil og tilsvarende art anmærkningsfil). <p class…

Representative Results

LDA-scorerne for mikrobielle samfund med signifikante forskelle i hver gruppe ved at analysere 16S rRNA-gensekvenserne af tre prøver er vist i figur 8. Histogrammets farve repræsenterer forskellige grupper, mens længden repræsenterer LDA-scoren, som er indflydelsen af arten med betydelige forskelle mellem forskellige grupper. Histogrammet viser de arter med signifikante forskelle, hvis LDA-score er større end den forudindstillede værdi. Den forudindstillede standardværdi er 2,0, så k…

Discussion

Her beskrives protokollen til identifikation og karakterisering af biomarkører inden for forskellige grupper. Denne protokol kan let tilpasses til andre prøvetyper, såsom OTU’er af mikroorganismer. Den statistiske metode fra LEfSe kan finde de karakteristiske mikroorganismer i hver gruppe (standard er LDA >2), det vil sige de mikroorganismer, der er mere rigelige i denne gruppe i forhold til de andre12. LEfSe er tilgængelig i både native og web Linux-versioner, hvor brugerne også kan udføre…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af en bevilling fra Grundforskningsfonde for Central Public Welfare Research Institutes (TKS170205) og Foundation for Development of Science and Technology og Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).
check_url/61715?article_type=t

Play Video

Cite This Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video