Summary

En praktisk vejledning til fylogeni for Nonexperts

Published: February 05, 2014
doi:

Summary

Her beskriver vi en trin-for-trin pipeline for at generere pålidelige fylogenier fra nukleotid-eller aminosyresekvens datasæt. Denne vejledning har til formål at tjene forskere eller studerende nye til fylogenetisk analyse.

Abstract

Mange forskere, på tværs utrolig varieret foci, anvender fylogeni til deres forskning (e) spørgsmål. Men mange forskere er ny på dette emne, og så det præsenterer iboende problemer. Her kompilere vi en praktisk introduktion til fylogeni for nonexperts. Vi skitsere i en trin-for-trin måde, en rørledning til at generere pålidelige fylogenier fra gensekvens datasæt. Vi begynder med en brugervenlig vejledning for lighed søgeværktøjer via online grænseflader samt lokale eksekverbare. Dernæst undersøger vi programmer til at generere flere sekvensalignments efterfulgt af protokoller til at bruge software til at bestemme bedst-fit modeller for evolution. Vi derefter skitsere protokoller for at rekonstruere fylogenetiske relationer via maksimal sandsynlighed og Bayesianske kriterier og endelig beskrive værktøjer til at visualisere fylogenetiske træer. Mens dette er ikke på nogen måde en udtømmende beskrivelse af fylogenetiske metoder, den giver læseren med praktiske starter information på centrale software-applikationer ofte anvendes af phylogeneticists. Visionen for denne artikel ville være, at det kan tjene som en praktisk uddannelse for forskere i gang med fylogenetiske studier, og også tjene som en pædagogisk ressource, der kunne indarbejdes i et klasseværelse eller undervisning-lab.

Introduction

For at forstå, hvordan to (eller flere) arter udviklet sig, er det nødvendigt først at indhente sekvens eller morfologiske data fra hver prøve, og disse data repræsenterer mængder, som vi kan bruge til at måle deres forhold gennem evolutionær rum. Ligesom når man måler lineære afstand, at have flere data tilgængelige (f.eks miles, tommer, mikron), vil svare til en mere nøjagtig måling. Ergo, er den nøjagtighed, hvormed en forsker kan udlede evolutionær afstand stærkt påvirket af mængden af ​​informative data til rådighed til at måle relationer. Hertil kommer, fordi forskellige prøver udvikle sig på forskellige satser og ved forskellige mekanismer, den metode, som vi bruger til at måle forholdet mellem to taxa også direkte indflydelse på nøjagtigheden af ​​evolutionære målinger. Derfor, og fordi evolutionære relationer ikke observeres direkte, men i stedet ekstrapoleres fra sekvens eller morfologiske data, problemet med at udlede evolutionærerelationer bliver en af ​​statistik. Fylogeni er den gren af ​​beskæftiger sig med at anvende statistiske modeller til mønstre af evolution for at optimalt rekonstruere den evolutionære historie mellem taxa biologi. Denne rekonstruktion mellem taxa er benævnt taxa s fylogeni.

For at hjælpe bygge bro i ekspertise mellem molekylærbiologer og evolutionære biologer, vi beskriver her en trinvis pipeline for at udlede fylogenier fra et sæt af sekvenser. For det første, vi detalje involveret i databasen forhør ved hjælp af Basic Local Alignment Search Tool (BLAST 1) algoritme via web-baseret interface og også ved hjælp af lokale eksekverbare skridt, og dette er ofte det første skridt i at opnå en liste over lignende sekvenser til en uidentificeret forespørgsel, selvom nogle forskere også kan være interesseret i at indsamle data for en enkelt gruppe via web grænseflader såsom Phylota (http://www.phylota.net/). BLAST er en algoritme for Comparing primære aminosyre eller nukleotidsekvensdata mod en database af sekvenser for at søge efter "hits", der ligner forespørgslen sekvens. BLAST-program er designet af Stephen Altschul et al. på National Institutes of Health (NIH) 1.. BLAST-serveren består af en række forskellige programmer, og her er en liste over nogle af de mest almindelige BLAST-programmer:

i) Nukleotid-nukleotid BLAST (BLASTN): Dette program kræver en DNA-sekvens input og returnerer de mest lignende DNA-sekvenser fra DNA-database, som brugeren angiver (f.eks for en specifik organisme).

ii) protein-protein BLAST (BLASTP): Her indlæser brugeren en proteinsekvens og programmet returnerer de tilsvarende proteinsekvenser fra proteinet database, specificerer brugeren.

iii) Position-Specific Iterativ BLAST (PSI-BLAST) (blastpgp): Brugeren indgang er en protei sekvens, som returnerer et sæt nært beslægtede proteiner, og fra dette datasæt en bevaret profil er genereret. Næste en ny forespørgsel er genereret ved hjælp af kun disse konserverede "motiver", som bruges til at afhøre et protein-database, og det returnerer en større gruppe af proteiner, hvorfra et nyt sæt af konserverede "motiver" er udtrukket og derefter brugt til at afhøre et protein-database, indtil en endnu større sæt af proteiner retuned og en anden profil er genereret, og processen gentages. Ved at inkludere beslægtede proteiner i forespørgslen i hvert trin dette program giver brugeren mulighed for at identificere sekvenser, der er mere forskellige.

iv) Nucleotide 6-frame translation-protein (BLASTX): Her bruger tilvejebringer en nukleotidsekvens input, der omdannes til de seks-ramme konceptuelle translationsprodukter (dvs. begge strenge) mod en proteinsekvens-database..

v) nukleotid 6-frame translation-nukleotid6-frame oversættelse (TBLASTX): Dette program tager en DNA-nukleotidsekvens input og oversætter input til alle seks-frame konceptuelle oversættelse produkter, som den sammenligner mod de seks-frame oversættelser af en nukleotidsekvens database.

vi) Protein-nukleotid 6-frame translation (tblastn): Dette program anvender en proteinsekvens input for at sammenligne mod alle seks læserammer en nukleotidsekvens-database.

Dernæst beskriver vi almindeligt anvendte programmer til at generere en Multiple alignment (MSA) fra en sekvens datasæt, og dette efterfølges af en brugervejledning til programmer, der bestemmer bedst-fit modeller af evolution for en sekvens datasæt. Phylogenetisk rekonstruktion er et statistisk problem, og på grund af dette, fylogenetiske metoder nødt til at indarbejde en statistisk ramme. Denne statistiske ramme bliver en evolutionær model, der samler sekvens ændringer inden for datasættet. Denne evolutionære model består af et sæt af forudsætninger om den proces, nukleotid eller aminosyrefenoler udskiftninger, og den bedste-fit model til et bestemt datasæt kan vælges gennem statistisk test. Pasformen til data af forskellige modeller kan sammenlignes via likelihood ratio tests (LRTs) eller kriterier for at vælge den bedst egnede model inden for et sæt af mulige virksomheder. To ensartede kriterier er Akaike information kriterium (AIC) 2 og Bayesian information kriterium (BIC) 3. Når en optimal tilpasning er genereret, er der mange forskellige metoder til at skabe en phylogeny fra de opstillede data. Der er mange metoder til at udlede evolutionære relationer, bredt, kan de opdeles i to kategorier: distance-baserede metoder og sekvens-baserede metoder. Distance-baserede metoder beregne parvise afstande fra sekvenser, og derefter bruge disse afstande for at få træet. Sekvens-baserede metoder bruger sekvensopstillingen direkte, og som regel søge tree plads ved hjælp af en optimalitet kriterium. Vi skitsere to sekvens-baserede metoder til at rekonstruere fylogenetiske relationer: disse er PhyML 4, som implementerer den maksimale sandsynlighed rammer og MrBayes 5 som bruger Bayesian Markov Chain Monte Carlo inferens. Likelihood og Bayesianske metoder giver en statistisk ramme for fylogenetisk rekonstruktion. Ved at give brugeren information om almindeligt anvendte træ-bygning værktøjer, vi introducere læseren til de nødvendige data, der kræves til at udlede fylogenetiske relationer.

Protocol

1.. Basic Local Alignment Search Tool (BLAST): Online-grænseflade Klik på dette link for at besøge BLAST 1 webserver på National Center for Biotechnology Information (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (figur 1). Input et FASTA formateret tekst sekvens (se figur 2 for eksempel) i søgefelt. Klik på den relevante BLAST programmet og relevante database eller enkelte arter af …

Representative Results

Finde ligheder til en forespørgsel giver forskerne at tilskrive en potentiel identitet til nye sekvenser og også udlede relationer mellem sekvenser. Filen input type til BLAST 1 er FASTA formateret tekst sekvens eller GenBank accession nummer. FASTA formateret sekvens begynder med en beskrivelse linje angives med et ">" tegn (Figur 2). Beskrivelsen skal følge umiddelbart efter ">" tegn, sekvensen (dvs. nukleotider. Eller aminosyrer) følge beskrivelsen p?…

Discussion

Vores håb for denne artikel er, at det vil tjene som et udgangspunkt for at vejlede forskere eller studerende, som er nye for fylogeni. Genomsekventering projekter er blevet billigere i løbet af de sidste par år og som en konsekvens af brugernes efterspørgsel efter denne teknologi er stigende, og nu produktion af store sekvens datasæt er hverdagskost i små laboratorier. Disse datasæt ofte give forskerne med sæt af gener, der kræver en fylogenetisk ramme til at begynde at forstå deres funktion. Hertil kommer, f…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Vi takker medlemmer af O'Halloran lab for kommentarer til manuskriptet. Vi takker George Washington University Biologisk Institut og Columbian College of Arts and Sciences om støtte til D. O'Halloran.

Riferimenti

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/it/50975?article_type=t

Play Video

Citazione di questo articolo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video