LEfSe (LDA Effect Size) er et verktøy for høydimensjonal biomarkørutvinning for å identifisere genomiske egenskaper (for eksempel gener, veier og taksonomier) som betydelig karakteriserer to eller flere grupper i mikrobiomedata.
Det er økende oppmerksomhet mot lukkede biologiske genomer i miljøet og i helse. For å utforske og avdekke intergruppeforskjellene mellom ulike prøver eller miljøer, er det avgjørende å oppdage biomarkører med statistiske forskjeller mellom grupper. Anvendelsen av lineær diskriminerende analyse Effektstørrelse (LEfSe) kan bidra til å finne gode biomarkører. Basert på de opprinnelige genomdataene utføres kvalitetskontroll og kvantifisering av forskjellige sekvenser basert på taxa eller gener. For det første ble Kruskal-Wallis-rangtesten brukt til å skille mellom spesifikke forskjeller mellom statistiske og biologiske grupper. Deretter ble Wilcoxon-rangeringstesten utført mellom de to gruppene som ble oppnådd i forrige trinn for å vurdere om forskjellene var konsistente. Til slutt ble det utført en lineær diskriminerende analyse (LDA) for å evaluere biomarkørers påvirkning på betydelig forskjellige grupper basert på LDA-score. For å oppsummere ga LEfSe bekvemmeligheten for å identifisere genomiske biomarkører som karakteriserer statistiske forskjeller mellom biologiske grupper.
Biomarkører er biologiske egenskaper som kan måles og kan indikere noen fenomener som infeksjon, sykdom eller miljø. Blant dem kan funksjonelle biomarkører være spesifikke biologiske funksjoner av enkeltarter eller felles for noen arter, for eksempel gen, protein, metabolitt og stier. Dessuten indikerer taksonomiske biomarkører en uvanlig art, en gruppe organismer (rike, phylum, klasse, orden, familie, slekt, arter), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. For å finne biomarkører raskere og mer nøyaktig, er det nødvendig med et verktøy for å analysere de biologiske dataene. Forskjellene mellom klasser kan forklares av LEfSe kombinert med standardtester for statistisk signifikans og ytterligere tester som koder biologisk konsistens og effektrelevans3. LEfSe er tilgjengelig som en galaksemodul, en conda-formel, et docker-bilde og inkludert i bioBakery (VM og cloud)4. Generelt bruker analysen av mikrobielt mangfold ofte en ikke-parametrisk test for usikker fordeling av et utvalgssamfunn. Rangeringssumtesten er en ikke-parametrisk testmetode, som bruker utvalgsrangeringen til å erstatte verdien av prøver. I henhold til forskjellen i utvalgsgrupper kan den deles inn i to prøver med Wilcoxon-rangeringssumtesten og i flere prøver med Kruskal-Wallis-testen 5,6. Spesielt når det er betydelige forskjeller mellom flere grupper av prøver, bør det utføres en rangeringssumtest av parvis sammenligning av flere prøver. LDA (som står for Linear Discriminant Analysis) oppfunnet av Ronald Fisher i 1936, er en type veiledet læring, også kjent som Fisher’s Linear Discriminant7. Det er en klassisk og populær algoritme innen det nåværende feltet maskinlæringsdatautvinning.
Her er LEfSe-analysen optimalisert av Conda- og Galaxy-servere. Tre grupper av 16S rRNA gensekvenser analyseres for å demonstrere de signifikante forskjellene mellom ulike grupper med LDA-skår av mikrobielle samfunn og visualiseringsresultater.
Her beskrives protokollen for identifisering og karakterisering av biomarkører i ulike grupper. Denne protokollen kan enkelt tilpasses andre utvalgstyper, for eksempel OTUer av mikroorganismer. Den statistiske metoden av LEfSe kan finne de karakteristiske mikroorganismer i hver gruppe (standard er LDA >2), det vilt mikroorganismer som er mer rikelig i denne gruppen i forhold til de andre12. LEfSe er tilgjengelig i både innfødte og web Linux-versjoner der brukere også kan utføre LEfSe-analyse …
The authors have nothing to disclose.
Dette arbeidet ble støttet av et stipend fra Fundamental Research Funds for Central Public Welfare Research Institutes (TKS170205) og Foundation for Development of Science and Technology, og Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).