Summary

Een praktische gids voor Phylogenetics voor Nonexperts

Published: February 05, 2014
doi:

Summary

Hier beschrijven we een stap-voor-stap pijpleiding genereren betrouwbare fylogenie van nucleotide-of aminozuursequentie datasets. Deze gids is bedoeld om onderzoekers of studenten nieuwe fylogenetische analyse dienen.

Abstract

Veel onderzoekers, over ongelooflijk divers foei, solliciteert phylogenetics om hun onderzoeksvraag (s). Echter, veel onderzoekers zijn nieuw voor dit onderwerp en dus presenteert inherente problemen. Een praktische introductie tot fylogenetica voor nonexperts hier compileren we. We schetsen in een stap-voor-stap manier, een pijpleiding voor het genereren betrouwbare fylogenie van gen sequentie datasets. We beginnen met een gebruiksvriendelijke handleiding voor gelijkenis zoekfuncties via online interfaces evenals lokale executables. Vervolgens hebben we programma's voor het genereren van meerdere sequentievergelijkingen gevolgd door protocollen voor het gebruik van software om de best passende modellen van de evolutie bepalen verkennen. Vervolgens hebben we een overzicht van protocollen voor de reconstructie van verwantschappen via maximum likelihood en Bayesiaanse criteria en tenslotte beschrijven tools voor het visualiseren van fylogenetische bomen. Hoewel dit geenszins een uitputtende beschrijving van fylogenetische benaderingen, maar biedt de lezer praktische beginnen information op de belangrijkste software-applicaties gewoonlijk gebruikt door phylogeneticists. De visie voor dit artikel zou zijn dat het kan dienen als een praktische training tool voor onderzoekers aanbreken van fylogenetische studies en ook dienen als een educatief hulpmiddel dat in een klaslokaal of onderwijs-lab zou kunnen worden opgenomen.

Introduction

Om te begrijpen hoe twee (of meer) soorten geëvolueerd, is het eerst nodig om de sequentie of morfologische gegevens te verkrijgen uit elk monster; deze gegevens vertegenwoordigen hoeveelheden die we kunnen gebruiken om hun relatie te meten door evolutionaire ruimte. Net als bij het ​​meten van lineaire afstand, met meer beschikbare gegevens (bijvoorbeeld mijlen, inches, micron) zal neerkomen op een meer accurate meting. Ergo, de nauwkeurigheid waarmee een onderzoeker evolutionaire afstand kunt afleiden is sterk beïnvloed door het volume van de informatieve gegevens beschikbaar om relaties te meten. Bovendien, omdat verschillende monsters evolueren met verschillende snelheden en door verschillende mechanismen, de methode die wij gebruiken om de relatie tussen twee taxa meten ook direct invloed op de nauwkeurigheid van evolutionaire metingen. Daarom, omdat de evolutionaire relaties niet rechtstreeks waargenomen, maar in plaats daarvan worden geëxtrapoleerd uit sequentie of morfologische gegevens, het probleem van het afleiden van evolutionairerelaties wordt een van de statistieken. Phylogenetics is de tak van de betrokken met het toepassen van statistische modellen om patronen van de evolutie om optimaal te reconstrueren de evolutionaire geschiedenis tussen taxa biologie. Deze reconstructie tussen taxa wordt aangeduid als fylogenese de taxa's.

Om u te helpen de kloof in kennis tussen de moleculaire biologen en evolutionaire biologen beschrijven we hier een stap voor stap pijpleiding worden afgeleid fylogenieën uit een set van sequenties. Ten eerste hebben we uitvoerig de stappen die betrokken zijn in de database verhoor met een Basic Local Alignment Search Tool (BLAST 1) algoritme via de webinterface en ook door het gebruik van lokale executables, dit is vaak de eerste stap in het verkrijgen van een lijst met vergelijkbare sequenties aan een onbekende query, hoewel sommige onderzoekers ook geïnteresseerd in het verzamelen van gegevens voor een enkele groep via web interfaces zoals Phylota (http://www.phylota.net/). BLAST is een algoritme voor comparing primaire aminozuur of nucleotide-sequentie data tegen een database van sequenties om te zoeken naar "hits" dat de zoeksequentie lijken. De BLAST programma is ontworpen door Stephen Altschul et al.. bij de National Institutes of Health (NIH) 1. De BLAST server bestaat uit een aantal verschillende programma's, en hier is een lijst van enkele van de meest voorkomende BLAST programma:

i) Nucleotide-nucleotide BLAST (blastn): dit programma is een DNA-sequentie-ingang en geeft de meest vergelijkbare DNA-sequenties van de DNA-databank die de gebruiker opgeeft (bijvoorbeeld voor een bepaald organisme).

ii) eiwit-eiwit BLAST (BLASTP): Hier kan de gebruiker een eiwitsequentie ingangen en het programma keert de meest gelijkende eiwitsequenties van het eiwit database die de gebruiker aangeeft.

iii) Positie-Specifieke Iterative BLAST (PSI-BLAST) (blastpgp): De invoer van de gebruiker is een protein sequentie die een reeks nauw verwante eiwitten keert terug, en vanuit deze dataset een geconserveerd profiel wordt gegenereerd. Vervolgens wordt een nieuwe query gegenereerd met alleen deze geconserveerde "motieven" die wordt gebruikt voor het ondervragen van een eiwit base en dit geeft een grotere groep eiwitten waarvan een nieuwe set geconserveerde "motieven" geëxtraheerd en vervolgens gebruikt voor het ondervragen van een eiwit databank tot een nog grotere groep eiwitten worden opnieuw ingesteld en een ander profiel wordt gegenereerd en het proces herhaald. Door het opnemen van verwante eiwitten in de query in elke stap van dit programma kan de gebruiker sequenties die meer uiteen identificeren.

iv) Nucleotide 6-raamwerktranslatie-eiwit (blastx): Hier de gebruiker een nucleotidesequentie ingang die is omgezet in de zes frame conceptuele translatie producten (beide strengen) tegen een eiwitsequentie databank..

v) Nucleotide 6-raamwerktranslatie nucleotide6-raamwerktranslatie (tblastx): Dit programma duurt een DNA nucleotidesequentie ingang en vertaalt de input in alle zes frames conceptuele vertaling producten die het zich verhoudt ten opzichte van de zes-frame van vertalingen van een nucleotide-sequentie databank.

vi) Eiwit-nucleotide 6-raamwerktranslatie (tblastn): Dit programma maakt gebruik van een eiwitsequentie input vergelijken met alle zes leesramen van een nucleotidesequentie databank.

Vervolgens beschrijven we veelgebruikte programma voor het genereren van een Multiple Sequence Alignment (MSA) een sequentie dataset, en dit wordt gevolgd door een gebruiker een lijst programma's die de best passende modellen evolutie een sequentie dataset te bepalen. Fylogenetische reconstructie is een statistisch probleem, en daardoor moet fylogenetische methoden om een ​​statistisch kader nemen. Deze statistische kader wordt een evolutionair model dat sequentie verandering binnen de dataset bevat. Deze evolutionaire model bestaat uit een set van aannames over het proces van nucleotide of aminozuur substituties, en de best passende model voor een bepaalde gegevensreeks kan worden geselecteerd via statistische testen. De pasvorm van de gegevens van de verschillende modellen kunnen worden vergeleken via likelihood ratio testen (LRTs) of informatie criteria om de best passende model binnen een set van mogelijke degenen te selecteren. Twee veel voorkomende informatie criteria zijn de Akaike informatie criterium (AIC) 2 en de Bayesiaanse informatie criterium (BIC) 3. Zodra een optimale positionering gegenereerd, zijn er veel verschillende methoden om een ​​fylogenie van de uitgelijnde gegevens. Er zijn tal van methoden voor het afleiden van de evolutionaire relaties, in grote lijnen, kunnen ze worden onderverdeeld in twee categorieën: methoden op basis van afstand en sequentie-gebaseerde methoden. Afstand gebaseerde methoden berekenen paarsgewijze afstanden van sequenties, en gebruik vervolgens deze afstanden om de boom te krijgen. Sequentie-gebaseerde methoden te gebruiken de sequence alignment direct, en meestal zoeken in de tree ruimte met behulp van een optimalisatiecriterium. We schetsen twee-sequentie gebaseerde methoden voor de reconstructie van verwantschappen: dit zijn PhyML 4, die de maximum likelihood kader implementeert en MrBayes 5 die Bayesiaanse Markov Chain Monte Carlo gevolgtrekking gebruikt. Waarschijnlijkheid en Bayesiaanse methoden geven een statistisch kader voor fylogenetische reconstructie. Door het verstrekken van informatie voor de gebruiker over de gebruikelijke boom-building tools, introduceren we de lezer om de noodzakelijke gegevens die nodig zijn om verwantschappen afleiden.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Online Interface Klik op deze link om de BLAST 1 web-server bij het ​​National Center for Biotechnology Information (NCBI) bezoeken. – http://blast.ncbi.nlm.nih.gov/Blast.cgi (figuur 1). Voer een FASTA opgemaakte tekst sequentie (zie figuur 2 bijvoorbeeld) in het zoekvak. Klikt u op de juiste BLAST het programma en relevante database-of indivi…

Representative Results

Het vinden van overeenkomsten met een query staat onderzoekers toe om een ​​mogelijke identiteit toeschrijven aan nieuwe sequenties en ook afleiden relaties tussen sequenties. Het bestandstype input voor BLAST 1 is FASTA opgemaakte tekst sequentie of GenBank. FASTA geformatteerd reeks begint met een beschrijving lijn aangegeven door een ">"-teken (figuur 2). De beschrijving moet na de ">"-teken, de reeks (dwz. Nucleotiden of aminozuren) volg dan de besch…

Discussion

Onze hoop voor dit artikel is dat het zal dienen als een startpunt om onderzoekers of studenten die nieuw phylogenetics zijn begeleiden. Genoom sequencing projecten zijn goedkoper geworden in de afgelopen jaren en als gevolg daarvan de gebruiker vraag naar deze technologie neemt toe, en nu de productie van grote sequentie datasets is gemeengoed in kleine laboratoria. Deze datasets bieden vaak onderzoekers groep van genen die een fylogenetische kader vereisen beginnen hun functie te begrijpen. Bovendien, omdat phylogenet…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Wij danken de leden van de O'Halloran lab voor commentaar op het manuscript. Wij danken de George Washington University Department of Biological Sciences en Colombiaanse Hogeschool voor de Kunsten en Wetenschappen voor Financiering van D. O'Halloran.

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/fr/50975?article_type=t

Play Video

Citer Cet Article
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video