Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Assisteret udvælgelse af biomarkører ved lineær diskriminantanalyseeffektstørrelse (LEfSe) i mikrobiomdata

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) er et værktøj til højdimensionel biomarkørminedrift til at identificere genomiske træk (såsom gener, veje og taksonomier), der signifikant karakteriserer to eller flere grupper i mikrobiomdata.

Abstract

Der er stigende opmærksomhed mod lukkede biologiske genomer i miljøet og i sundheden. For at udforske og afsløre forskellene mellem grupper mellem forskellige prøver eller miljøer er det afgørende at opdage biomarkører med statistiske forskelle mellem grupper. Anvendelsen af lineær diskriminantanalyse Effect Size (LEfSe) kan hjælpe med at finde gode biomarkører. Baseret på de oprindelige genomdata udføres kvalitetskontrol og kvantificering af forskellige sekvenser baseret på taxa eller gener. For det første blev Kruskal-Wallis rangtesten brugt til at skelne mellem specifikke forskelle mellem statistiske og biologiske grupper. Derefter blev Wilcoxon-rangtesten udført mellem de to grupper, der blev opnået i det foregående trin for at vurdere, om forskellene var konsistente. Endelig blev der udført en lineær diskriminerende analyse (LDA) for at evaluere biomarkørernes indflydelse på signifikant forskellige grupper baseret på LDA-score. For at opsummere gav LEfSe bekvemmeligheden til at identificere genomiske biomarkører, der karakteriserer statistiske forskelle mellem biologiske grupper.

Introduction

Biomarkører er biologiske egenskaber, der kan måles og kan indikere nogle fænomener som infektion, sygdom eller miljø. Blandt dem kan funktionelle biomarkører være specifikke biologiske funktioner af enkelte arter eller fælles for nogle arter, såsom gen, protein, metabolit og veje. Desuden angiver taksonomiske biomarkører en usædvanlig art, en gruppe organismer (kongerige, phylum, klasse, orden, familie, slægt, art), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. For at finde biomarkører hurtigere og mere præcist er det nødvendigt med et værktøj til analyse af de biologiske data. Forskellene mellem klasserne kan forklares ved hjælp af LEfSe kombineret med standardtest for statistisk signifikans og yderligere test, der koder for biologisk konsistens og effektrelevans3. LEfSe er tilgængelig som et galaksemodul, en conda-formel, et dockerbillede og inkluderet i bioBakery (VM og cloud)4. Generelt bruger analysen af mikrobiel mangfoldighed ofte en ikke-parametrisk test for den usikre fordeling af et prøvesamfund. Rangsumstesten er en ikke-parametrisk testmetode, der bruger rangeringen af prøver til at erstatte værdien af prøver. Ifølge forskellen mellem prøvegrupper kan den opdeles i to prøver med Wilcoxon rank sum test og i flere prøver med Kruskal-Wallis test 5,6. Navnlig, når der er signifikante forskelle mellem flere grupper af prøver, bør der udføres en rangsumstest af parvis sammenligning af flere prøver. LDA (som står for Linear Discriminant Analysis) opfundet af Ronald Fisher i 1936, er en type overvåget læring, også kendt som Fisher's Linear Discriminant7. Det er en klassisk og populær algoritme inden for det nuværende område af maskinindlæringsdata mining.

Her er LEfSe-analysen optimeret af Conda- og Galaxy-servere. Tre grupper af 16S rRNA-gensekvenser analyseres for at demonstrere de signifikante forskelle mellem forskellige grupper med LDA-score af mikrobielle samfund og visualiseringsresultater.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

BEMÆRK: Protokollen blev hentet og modificeret fra forskningen i Segata et al.3. Metoden findes på https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Udarbejdelse af inputfil til analyse

  1. Forbered inputfilen (tabel 1) i LEfSe, som let kan genereres af mange arbejdsgange8 eller tidligere protokoller9 med de originale filer (eksempelfil og tilsvarende art anmærkningsfil).

2. LEfSe native analyse (begrænset til Linux-serveren)

  1. LEfSe Installation
    BEMÆRK: LEfSe-rørledningen anbefales at installeres med Conda10.
    1. Kør følgende kommandoer for at udelukke muligheden for afhængighedskonflikter. Opret et conda-miljø til LEfSe (Dette trin anbefales, men er ikke påkrævet.). -n står for miljønavnet.
      $ conda create -n LEfSe-env
    2. Hvis du vil aktivere det LEfSe-miljø, der blev oprettet, skal du køre:
      $ kilde aktiver LEfSe-env
    3. Hvis du vil installere LEfSe med kanalbioBakery, hvor -c står for kanalnavn, skal du køre:
      $ conda install -c biobakery lefse
  2. Formatér data til LEfSe
    1. Kør følgende kommando for at formatere den originale fil til det interne format for LEfSe. Tabel.txt er inputfilen, og Table-reformat.in er outputfilen. -c bruges til at indstille funktionen, som bruges som klasse (standard 1) og -o bruges til at indstille normaliseringsværdien (standard -1.0 betyder ingen normalisering).
      $ format_input.py Tabel.txt Table-reformat.in -c 1 -o 1000000
  3. Beregning af LDA-effektstørrelse (lineær diskriminantanalyse)
    1. Kør følgende kommando. Formålet med dette trin er at udføre LDA for det forrige resultat og generere resultatfilen til visualiseringen. Table-reformat.in genereres ved hjælp af det forrige trin og bruges som inputfil i dette trin. Table-reformat.res er resultatfilen.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualisering efter plots
    1. Plot LEfSe-resultaterne. For at plotte effektstørrelsen af biomarkørerne i en pdf-fil,. Table-reformat.res genereres ved hjælp af det forrige trin, og LDA.pdf er plotfilen. –format bruges til at indstille outputfilformatet.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Plot kladogrammet. At tegne artstræet og vise biomarkørerne i et kladogram. cladogram.pdf er outputfilen.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf
    3. Plot én funktion (valgfrit) At plotte forskellene i en enkelt biomarkør mellem forskellige grupper. -f bruges til at indstille funktionerne i plottet. Hvis en sådan blev indstillet, skal –feature_name gives.
      $ plot_features.py -f en --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Plot de differentielle funktioner (valgfrit) for at tegne alle funktionerne, men der er for meget at gøre med forsigtighed. --archive bruges til at vælge, om resultaterne skal komprimeres. ./ betyder vejen for resultaterne.
      $ plot_features.py -f diff --arkiv ingen --format pdf Table-reformat.in Table-reformat.res ./

3. LEfSe online analyse (galakse)

  1. Gå til huttenhower galaxy server11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Upload filerne. Tryk på pil op i venstre rude, og upload filen. Klik på Vælg lokal fil for at vælge inputfilen, vælg formattabulæren, og klik derefter på Start-knappen .
    BEMÆRK: Henvist til websiden (https://bitbucket.org/biobakery/biobakery/wiki/lefse), brug scriptet (taxonomy_summary. R) for at generere inputfilen til LEfSe, og formatet (hver kolonne med et gruppenavn, hver linje med et andet anmærkningsniveau adskilt af "|") er påkrævet som vist i tabel 1. En skematisk oversigt over uploadprocessen er vist i figur 1.
  3. Formatér dataene for LEfSe. Klik på LEfSe-| Formatér linket Data for LEfSe i venstre rude, og vælg de specifikke rækker for klassen i filen, og klik på knappen Udfør . En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 2.
  4. Beregn LDA-effektstørrelsen. Klik på LEfSe-| LDA Effect Size (LEfSe) link i venstre rude, og vælg parameterværdier i henhold til analysekravene. Klik på Udfør. En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 3.
  5. Plot LEfSe-resultaterne. Klik på LEfSe-| Plot LEfSe Results link i venstre rude, og klik på knappen Udfør . En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 4.
  6. Plot kladogrammet. Klik på Plot Cladogram i venstre rude, og klik på knappen Udfør , når du har valgt parameterværdierne. En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 5.
  7. Plot en funktion ved at klikke på Plot One-funktion i venstre rude og klikke på knappen Udfør efter at have valgt parameterværdier. En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 6.
  8. Plot differentielle funktioner ved at klikke på Plot Differential Features i venstre rude og clcking på knappen Udfør efter valg af parameterværdier. En skematisk oversigt over den operationelle proces og de anvendte parametre er vist i figur 7.
    BEMÆRK: Disse genererede tal kan visualiseres og downloades mod det resulterende output i højre rude.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

LDA-scorerne for mikrobielle samfund med signifikante forskelle i hver gruppe ved at analysere 16S rRNA-gensekvenserne af tre prøver er vist i figur 8. Histogrammets farve repræsenterer forskellige grupper, mens længden repræsenterer LDA-scoren, som er indflydelsen af arten med betydelige forskelle mellem forskellige grupper. Histogrammet viser de arter med signifikante forskelle, hvis LDA-score er større end den forudindstillede værdi. Den forudindstillede standardværdi er 2,0, så kun absolutte værdier af LDA-score (abscissa), der er større end 2,0, vises i plottet.

Biomarkørerne med signifikant forskel og artstræ mellem forskellige klassifikationsniveauer er vist i figur 9. Cirklerne, der udstråler indefra og udefra, repræsenterer klassifikationsniveauerne fra phylum til slægt (den inderste gule cirkel er kongeriget). Diameteren af hver lille cirkel på de forskellige klassifikationsniveauer repræsenterer størrelsen af den relative overflod. Arterne uden signifikant forskel er ensartet farvet gule, og de signifikant forskellige arter biomarkører er farvet med de tilsvarende grupper. Klasserne A, B og C er gruppenavnene på mikrobielle prøver indsamlet. Røde knuder repræsenterer de mikrobielle grupper, der spiller en vigtig rolle i den røde gruppe (A); grønne knuder repræsenterer de mikrobielle grupper, der spiller en vigtig rolle i den grønne gruppe (B); og blå knuder repræsenterer de mikrobielle grupper, der spiller en vigtig rolle i den blå gruppe (C). Det tilsvarende artsnavn på de biomarkører, der ikke er vist i plottet, vises på højre side, og bogstavnumrene svarer til det i plottet (viser kun forskellige arter fra phylum til familien som standard til æstetiske formål).

Overfloden af en biomarkør, der har forskelle mellem forskellige grupper i henhold til LEfSe-resultaterne, er vist i figur 10. I den relative overflod barplot repræsenterer den faste linje den gennemsnitlige relative overflod, den prikkede linje repræsenterer den mediane relative overflod, og hver kolonne repræsenterer den relative overflod af hver prøve i forskellige grupper.

Tabel 1: Eksempelfilen til LEfSe-analyse online. Klik her for at downloade denne tabel.

Figure 1
Figur 1: Skematisk oversigt over uploadprocessen. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 2
Figur 2: Skematisk oversigt over den operationelle proces for ændring af dataformat. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 3
Figur 3: Skematisk oversigt over den operationelle proces til beregning af LDA-effektstørrelse. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 4
Figur 4: Skematisk oversigt over den operationelle proces til plotning af LEfSe-resultater. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 5
Figur 5: Skematisk oversigt over den operationelle proces til plotning af kladogram. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 6
Figur 6: Skematisk oversigt over den operationelle proces til plotning af en funktion. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 7
Figur 7: Skematisk oversigt over den operationelle proces til plotning af differentielle funktioner. Klik på de røde tal i rækkefølge på figuren. Klik her for at se en større version af denne figur.

Figure 8
Figur 8: Histogram over fordelingen af LDA-værdier. LDA-score af mikrobielle samfund med signifikante forskelle i hver gruppe blev analyseret af LDA Effect Size i henhold til deres påvirkninger og korrelationer. Klik her for at downloade denne figur.

Figure 9
Figur 9: Cladogram. Det typiske plot af kladogrammet opnået ved protokollen, som muliggør repræsentation af forskellen mellem forskellige klassifikationsniveauer for tre grupper. Klik her for at se en større version af denne figur.

Figure 10
Figur 10: Et funktionsplot. Overflodsbjælkeplottet for en biomarkør, der har forskelle mellem forskellige grupper i henhold til LEfSe-results.is vist. Klik her for at se en større version af denne figur.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Her beskrives protokollen til identifikation og karakterisering af biomarkører inden for forskellige grupper. Denne protokol kan let tilpasses til andre prøvetyper, såsom OTU'er af mikroorganismer. Den statistiske metode fra LEfSe kan finde de karakteristiske mikroorganismer i hver gruppe (standard er LDA >2), det vil sige de mikroorganismer, der er mere rigelige i denne gruppe i forhold til de andre12. LEfSe er tilgængelig i både native og web Linux-versioner, hvor brugerne også kan udføre LEfSe-analyse på websider. LEfSe er baseret på LDA-algoritmen og har brug for et artsniveau for at tegne et artstræ. Ved anvendelse af værktøjet kan den relative overflod mellem grupper sammenlignes. Alle differentielle biomarkører kunne afbildes i en enkelt graf. En enkelt biomarkør eller alle biomarkører kan også afbildes i partier.

Uanset om LEfSe udføres via den oprindelige server eller et online websted, er der mange indstillelige parametre til at tegne de krævede billeder. På grund af inputfilernes komplekse struktur og behovet for at konvertere dem til foretrukne dataformater til yderligere analyser af LEfSe er der også udviklet nogle one-stop-tjenester. Derfor kan optimeringen af lettere operationer være udfordrende. På den anden side er der et par begrænsninger, når man analyserer komplekse data ved hjælp af LEfSe. LDA projekterer en funktion, der er en dimension mindre end kategorien, og hvis der er behov for flere funktioner, introduceres andre metoder. Varianterne af LDA kan løse nogle vanskeligheder. For eksempel er Kernel LDA en løsning, hvis de originale data ikke kan adskilles godt efter projektion. Da mængden af beregning af LDA er relateret til dimensionen af data, kan 2DLDA i høj grad reducere mængden af beregning af LDA. Både LDA og PCA er almindeligt anvendte dimensionsreduktionsteknikker. PCA (Principal Component Analysisis) dimensionsreduktion er direkte relateret til datadimensionen, og det projicerede koordinatsystem er ortogonalt. LDA fokuserer imidlertid på evnen til klassificering i henhold til mærkning af kategorier, så det projicerede koordinatsystem er generelt ikke ortogonalt.

LEfSe yder bistand til udvælgelse af biomarkører. Med mange fordele (f.eks. justerbare parametre, de detaljerede resultater af forskellige dele, anvendelse mellem to eller flere grupper) er det blevet brugt i vid udstrækning13. Med stigende efterspørgsel efter højdimensionel dataanalyse vil anvendelsen af denne metode blive mere og mere omfattende for at udforske biomarkørerne for de funktioner (organismer, klader, operationelle taksonomiske enheder, gener eller funktioner), der påvirker menneskers sundhed og sygdom.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde blev støttet af en bevilling fra Grundforskningsfonde for Central Public Welfare Research Institutes (TKS170205) og Foundation for Development of Science and Technology og Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetik udgave 183 LEfSe Biomarkør Genom Biodiversitet Statistisk forskel Biologisk korrelation
Assisteret udvælgelse af biomarkører ved lineær diskriminantanalyseeffektstørrelse (LEfSe) i mikrobiomdata
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter