LEfSe (LDA Effect Size) är ett verktyg för högdimensionell biomarkörbrytning för att identifiera genomiska egenskaper (såsom gener, vägar och taxonomier) som signifikant karakteriserar två eller flera grupper i mikrobiomdata.
Det finns en växande uppmärksamhet mot slutna biologiska genom i miljön och i hälsan. För att utforska och avslöja skillnaderna mellan grupper mellan olika prover eller miljöer är det viktigt att upptäcka biomarkörer med statistiska skillnader mellan grupper. Tillämpningen av linjär diskriminant analys Effektstorlek (LEfSe) kan hjälpa till att hitta bra biomarkörer. Baserat på de ursprungliga genomdata utförs kvalitetskontroll och kvantifiering av olika sekvenser baserade på taxa eller gener. Först användes Kruskal-Wallis ranktest för att skilja mellan specifika skillnader mellan statistiska och biologiska grupper. Därefter utfördes Wilcoxon-rankningstestet mellan de två grupperna som erhölls i föregående steg för att bedöma om skillnaderna var konsekventa. Slutligen genomfördes en linjär diskriminantanalys (LDA) för att utvärdera biomarkörernas påverkan på signifikant olika grupper baserat på LDA-poäng. Sammanfattningsvis tillhandahöll LEfSe bekvämligheten för att identifiera genomiska biomarkörer som karakteriserar statistiska skillnader mellan biologiska grupper.
Biomarkörer är biologiska egenskaper som kan mätas och kan indikera vissa fenomen som infektion, sjukdom eller miljö. Bland dem kan funktionella biomarkörer vara specifika biologiska funktioner hos enstaka arter eller gemensamma för vissa arter, såsom gen, protein, metabolit och vägar. Dessutom indikerar taxonomiska biomarkörer en ovanlig art, en grupp organismer (rike, fylum, klass, ordning, familj, släkt, art), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. För att hitta biomarkörer snabbare och mer exakt är ett verktyg för att analysera biologiska data nödvändigt. Skillnaderna mellan klasserna kan förklaras av LEfSe i kombination med standardtester för statistisk signifikans och ytterligare tester som kodar för biologisk konsistens och effektrelevans3. LEfSe är tillgänglig som en galaxmodul, en conda-formel, en docker-avbildning och ingår i bioBakery (VM och moln)4. I allmänhet använder analysen av mikrobiell mångfald ofta ett icke-parametriskt test för den osäkra fördelningen av ett provsamhälle. Rangsummatestet är en icke-parametrisk testmetod, som använder rangordningen av prover för att ersätta värdet på proverna. Enligt skillnaden i provgrupper kan den delas in i två prover med Wilcoxon rank sum test och i flera prover med Kruskal-Wallis test 5,6. När det finns signifikanta skillnader mellan flera grupper av prover bör ett rangsummatest av parvis jämförelse av flera prover utföras. LDA (som står för Linear Discriminant Analysis) uppfunnet av Ronald Fisher 1936, är en typ av övervakat lärande, även känt som Fisher’s Linear Discriminant7. Det är en klassisk och populär algoritm inom det nuvarande området för maskininlärningsdatautvinning.
Här har LEfSe-analysen optimerats av Conda- och Galaxy-servrar. Tre grupper av 16S rRNA-gensekvenser analyseras för att visa de signifikanta skillnaderna mellan olika grupper med LDA-poäng av mikrobiella samhällen och visualiseringsresultat.
Här beskrivs protokollet för identifiering och karakterisering av biomarkörer inom olika grupper. Detta protokoll kan enkelt anpassas för andra provtyper, såsom OTU av mikroorganismer. Den statistiska metoden med LEfSe kan hitta de karakteristiska mikroorganismerna i varje grupp (standard är LDA >2), det vill säga de mikroorganismer som är rikligare i denna grupp i förhållande till de andra12. LEfSe finns i både inbyggda och webb-Linux-versioner där användare också kan utföra LEfSe-…
The authors have nothing to disclose.
Detta arbete stöddes av ett bidrag från fundamentala forskningsfonder för Central Public Welfare Research Institutes (TKS170205) och Foundation for Development of Science and Technology, och Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).