Summary

Assisterat urval av biomarkörer genom linjär diskriminant analyseffektstorlek (LEfSe) i mikrobiomdata

Published: May 16, 2022
doi:

Summary

LEfSe (LDA Effect Size) är ett verktyg för högdimensionell biomarkörbrytning för att identifiera genomiska egenskaper (såsom gener, vägar och taxonomier) som signifikant karakteriserar två eller flera grupper i mikrobiomdata.

Abstract

Det finns en växande uppmärksamhet mot slutna biologiska genom i miljön och i hälsan. För att utforska och avslöja skillnaderna mellan grupper mellan olika prover eller miljöer är det viktigt att upptäcka biomarkörer med statistiska skillnader mellan grupper. Tillämpningen av linjär diskriminant analys Effektstorlek (LEfSe) kan hjälpa till att hitta bra biomarkörer. Baserat på de ursprungliga genomdata utförs kvalitetskontroll och kvantifiering av olika sekvenser baserade på taxa eller gener. Först användes Kruskal-Wallis ranktest för att skilja mellan specifika skillnader mellan statistiska och biologiska grupper. Därefter utfördes Wilcoxon-rankningstestet mellan de två grupperna som erhölls i föregående steg för att bedöma om skillnaderna var konsekventa. Slutligen genomfördes en linjär diskriminantanalys (LDA) för att utvärdera biomarkörernas påverkan på signifikant olika grupper baserat på LDA-poäng. Sammanfattningsvis tillhandahöll LEfSe bekvämligheten för att identifiera genomiska biomarkörer som karakteriserar statistiska skillnader mellan biologiska grupper.

Introduction

Biomarkörer är biologiska egenskaper som kan mätas och kan indikera vissa fenomen som infektion, sjukdom eller miljö. Bland dem kan funktionella biomarkörer vara specifika biologiska funktioner hos enstaka arter eller gemensamma för vissa arter, såsom gen, protein, metabolit och vägar. Dessutom indikerar taxonomiska biomarkörer en ovanlig art, en grupp organismer (rike, fylum, klass, ordning, familj, släkt, art), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. För att hitta biomarkörer snabbare och mer exakt är ett verktyg för att analysera biologiska data nödvändigt. Skillnaderna mellan klasserna kan förklaras av LEfSe i kombination med standardtester för statistisk signifikans och ytterligare tester som kodar för biologisk konsistens och effektrelevans3. LEfSe är tillgänglig som en galaxmodul, en conda-formel, en docker-avbildning och ingår i bioBakery (VM och moln)4. I allmänhet använder analysen av mikrobiell mångfald ofta ett icke-parametriskt test för den osäkra fördelningen av ett provsamhälle. Rangsummatestet är en icke-parametrisk testmetod, som använder rangordningen av prover för att ersätta värdet på proverna. Enligt skillnaden i provgrupper kan den delas in i två prover med Wilcoxon rank sum test och i flera prover med Kruskal-Wallis test 5,6. När det finns signifikanta skillnader mellan flera grupper av prover bör ett rangsummatest av parvis jämförelse av flera prover utföras. LDA (som står för Linear Discriminant Analysis) uppfunnet av Ronald Fisher 1936, är en typ av övervakat lärande, även känt som Fisher’s Linear Discriminant7. Det är en klassisk och populär algoritm inom det nuvarande området för maskininlärningsdatautvinning.

Här har LEfSe-analysen optimerats av Conda- och Galaxy-servrar. Tre grupper av 16S rRNA-gensekvenser analyseras för att visa de signifikanta skillnaderna mellan olika grupper med LDA-poäng av mikrobiella samhällen och visualiseringsresultat.

Protocol

OBS: Protokollet hämtades och modifierades från forskningen i Segata et al.3. Metoden tillhandahålls vid https://bitbucket.org/biobakery/biobakery/wiki/lefse. 1. Förberedelse av indatafil för analys Förbered indatafilen (tabell 1) för LEfSe, som enkelt kan genereras av många arbetsflöden8 eller tidigare protokoll9 med originalfilerna (exempelfil och motsvarande artanteckningsfil). <…

Representative Results

LDA-poängen för mikrobiella samhällen med signifikanta skillnader i varje grupp genom att analysera 16S rRNA-gensekvenserna av tre prover visas i figur 8. Histogrammets färg representerar olika grupper, medan längden representerar LDA-poängen, vilket är artens inflytande med signifikanta skillnader mellan olika grupper. Histogrammet visar arten med signifikanta skillnader vars LDA-poäng är större än det förinställda värdet. Standardvärdet för förinställt är 2,0, så endast…

Discussion

Här beskrivs protokollet för identifiering och karakterisering av biomarkörer inom olika grupper. Detta protokoll kan enkelt anpassas för andra provtyper, såsom OTU av mikroorganismer. Den statistiska metoden med LEfSe kan hitta de karakteristiska mikroorganismerna i varje grupp (standard är LDA >2), det vill säga de mikroorganismer som är rikligare i denna grupp i förhållande till de andra12. LEfSe finns i både inbyggda och webb-Linux-versioner där användare också kan utföra LEfSe-…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes av ett bidrag från fundamentala forskningsfonder för Central Public Welfare Research Institutes (TKS170205) och Foundation for Development of Science and Technology, och Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

No materials used

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. . Biobakery / lefse [tool] Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019)
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).
check_url/fr/61715?article_type=t

Play Video

Citer Cet Article
Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

View Video