Summary

Assistert utvalg av biomarkører ved lineær diskriminerende analyseeffektstørrelse (LEfSe) i mikrobiomedata

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) er et verktøy for høydimensjonal biomarkørutvinning for å identifisere genomiske egenskaper (for eksempel gener, veier og taksonomier) som betydelig karakteriserer to eller flere grupper i mikrobiomedata.

Abstract

Det er økende oppmerksomhet mot lukkede biologiske genomer i miljøet og i helse. For å utforske og avdekke intergruppeforskjellene mellom ulike prøver eller miljøer, er det avgjørende å oppdage biomarkører med statistiske forskjeller mellom grupper. Anvendelsen av lineær diskriminerende analyse Effektstørrelse (LEfSe) kan bidra til å finne gode biomarkører. Basert på de opprinnelige genomdataene utføres kvalitetskontroll og kvantifisering av forskjellige sekvenser basert på taxa eller gener. For det første ble Kruskal-Wallis-rangtesten brukt til å skille mellom spesifikke forskjeller mellom statistiske og biologiske grupper. Deretter ble Wilcoxon-rangeringstesten utført mellom de to gruppene som ble oppnådd i forrige trinn for å vurdere om forskjellene var konsistente. Til slutt ble det utført en lineær diskriminerende analyse (LDA) for å evaluere biomarkørers påvirkning på betydelig forskjellige grupper basert på LDA-score. For å oppsummere ga LEfSe bekvemmeligheten for å identifisere genomiske biomarkører som karakteriserer statistiske forskjeller mellom biologiske grupper.

Introduction

Biomarkører er biologiske egenskaper som kan måles og kan indikere noen fenomener som infeksjon, sykdom eller miljø. Blant dem kan funksjonelle biomarkører være spesifikke biologiske funksjoner av enkeltarter eller felles for noen arter, for eksempel gen, protein, metabolitt og stier. Dessuten indikerer taksonomiske biomarkører en uvanlig art, en gruppe organismer (rike, phylum, klasse, orden, familie, slekt, arter), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. For å finne biomarkører raskere og mer nøyaktig, er det nødvendig med et verktøy for å analysere de biologiske dataene. Forskjellene mellom klasser kan forklares av LEfSe kombinert med standardtester for statistisk signifikans og ytterligere tester som koder biologisk konsistens og effektrelevans3. LEfSe er tilgjengelig som en galaksemodul, en conda-formel, et docker-bilde og inkludert i bioBakery (VM og cloud)4. Generelt bruker analysen av mikrobielt mangfold ofte en ikke-parametrisk test for usikker fordeling av et utvalgssamfunn. Rangeringssumtesten er en ikke-parametrisk testmetode, som bruker utvalgsrangeringen til å erstatte verdien av prøver. I henhold til forskjellen i utvalgsgrupper kan den deles inn i to prøver med Wilcoxon-rangeringssumtesten og i flere prøver med Kruskal-Wallis-testen 5,6. Spesielt når det er betydelige forskjeller mellom flere grupper av prøver, bør det utføres en rangeringssumtest av parvis sammenligning av flere prøver. LDA (som står for Linear Discriminant Analysis) oppfunnet av Ronald Fisher i 1936, er en type veiledet læring, også kjent som Fisher’s Linear Discriminant7. Det er en klassisk og populær algoritme innen det nåværende feltet maskinlæringsdatautvinning.

Her er LEfSe-analysen optimalisert av Conda- og Galaxy-servere. Tre grupper av 16S rRNA gensekvenser analyseres for å demonstrere de signifikante forskjellene mellom ulike grupper med LDA-skår av mikrobielle samfunn og visualiseringsresultater.

Protocol

MERK: Protokollen ble hentet og modifisert fra forskningen til Segata et al.3. Metoden er angitt på https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Utarbeidelse av inndatafil for analyse Klargjør inndatafilen (tabell 1) for LEfSe, som enkelt kan genereres av mange arbeidsflyter8 eller tidligere protokoller9 med de opprinnelige filene (eksempelfil og tilsvarende artmerknadsfil). </…

Representative Results

LDA-skårene for mikrobielle samfunn med signifikante forskjeller i hver gruppe ved å analysere 16S rRNA-gensekvensene av tre prøver er vist i figur 8. Fargen på histogrammet representerer forskjellige grupper, mens lengden representerer LDA-poengsummen, som er artens innflytelse med betydelige forskjeller mellom forskjellige grupper. Histogrammet viser arten med betydelige forskjeller hvis LDA-poengsum er større enn den forhåndsinnstilte verdien. Standard forhåndsinnstilt verdi er 2,0…

Discussion

Her beskrives protokollen for identifisering og karakterisering av biomarkører i ulike grupper. Denne protokollen kan enkelt tilpasses andre utvalgstyper, for eksempel OTUer av mikroorganismer. Den statistiske metoden av LEfSe kan finne de karakteristiske mikroorganismer i hver gruppe (standard er LDA >2), det vilt mikroorganismer som er mer rikelig i denne gruppen i forhold til de andre12. LEfSe er tilgjengelig i både innfødte og web Linux-versjoner der brukere også kan utføre LEfSe-analyse …

Divulgations

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av et stipend fra Fundamental Research Funds for Central Public Welfare Research Institutes (TKS170205) og Foundation for Development of Science and Technology, og Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).
check_url/fr/61715?article_type=t

Play Video

Citer Cet Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video