Summary

En praktisk guide till Phylogenetics för Nonexperts

Published: February 05, 2014
doi:

Summary

Här beskriver vi en steg-för-steg-rörledning för att generera tillförlitliga fylogenier från nukleotid-eller aminosyrasekvensdatamängder. Denna guide syftar till att betjäna forskare eller studenter nya för fylogenetisk analys.

Abstract

Många forskare, över otroligt varierande fokus, tillämpar fylogeni till sin forskningsfråga (s). Men många forskare är ny på detta ämne och det innebär inneboende problem. Här sammanställer vi en praktisk introduktion till fylogeni för nonexperts. Vi skisserar i en steg-för-steg sätt, en rörledning för att generera tillförlitliga fylogenier från genen sekvensdatamängder. Vi börjar med en användarvänlig guide för likhet sökverktyg via online-gränssnitt samt lokala körbara. Därefter utforskar vi program för att generera flera sekvensinpass följt av protokoll för att använda programvara för att bestämma bäst passar modeller av evolution. Vi skisserar sedan protokoll för att rekonstruera fylogenetiska relationer via maximum likelihood och Bayesianska kriterier och slutligen beskriver verktyg för att visualisera fylogenetiska träd. Även om detta är inte på något sätt en uttömmande beskrivning av fylogenetiska metoder, det gör det ge läsaren praktiska börjar information på viktiga program som vanligen används av phylogeneticists. Visionen för den här artikeln skulle vara att det skulle kunna fungera som ett praktiskt utbildningsverktyg för forskare ombord på fylogenetiska studier och även fungera som en pedagogisk resurs som skulle kunna införlivas i ett klassrum eller undervisning-lab.

Introduction

För att förstå hur två (eller flera) arter som utvecklats, är det först nödvändigt att få sekvens eller morfologiska data från varje prov, dessa data representerar kvantiteter som vi kan använda för att mäta deras förhållande genom evolutionära rymden. Precis som vid mätning av linjära avstånd, som har mer data tillgängliga (t.ex. km, tum, mikrometer) kommer att motsvara en mer noggrann mätning. Ergo, den noggrannhet med vilken en forskare kan härleda evolutionära avståndet är starkt påverkad av den volym av informativa data tillgängliga för att mäta relationer. Dessutom, eftersom olika prover utvecklas i olika takt och med olika mekanismer, den metod som vi använder för att mäta förhållandet mellan två taxa också direkt påverkar noggrannheten i evolutionära mätningar. Därför, eftersom evolutionära relationer inte observeras direkt utan extrapoleras från sekvens eller morfologiska uppgifter, problemet med att dra slutsatsen evolutionärarelationer blir en av statistiken. Phylogenetics är den gren av berörda med att tillämpa statistiska modeller för mönster av evolution för att optimalt rekonstruera evolutionära historia mellan taxa biologi. Denna rekonstruktion mellan taxa kallas den taxa s fylogeni.

För att överbrygga klyftan i kompetens mellan molekylärbiologer och evolutionsbiologer som vi beskriver här en steg för steg rörledning för att dra slutsatsen fylogenier från en uppsättning sekvenser. För det första, vi detalj de steg som ingår i databasen förhör med hjälp av grund Local Alignment Search Tool (BLAST 1) algoritmen via det webbaserade gränssnittet och även med hjälp av lokala körbara filer, det är ofta det första steget i att få en lista med liknande sekvenser till en oidentifierad fråga, även om vissa forskare kan också vara intresserad av att samla in data för en enda grupp via webb-gränssnitt som Phylota (http://www.phylota.net/). BLAST är en algoritm för comparing primär aminosyra eller nukleotid-sekvensdata mot en databas av sekvenser för att söka efter "träffar" som liknar frågesekvensen. BLAST-programmet har utformats av Stephen Altschul et al. vid National Institutes of Health (NIH) 1. BLAST-servern består av ett antal olika program, och här är en lista på några av de vanligaste BLAST-program:

i) Nukleotid-nukleotid BLAST (BLASTN): Detta program kräver en DNA-sekvens ingång och returnerar de mest likartade DNA-sekvenser från DNA-databas som användaren anger (t.ex. för en viss organism).

ii) Protein-protein-BLAST (blastp): Här kan användaren inmatar en proteinsekvens, och programmet återvänder de mest likartade proteinsekvenser från proteinet databasen som användaren anger.

iii) Position Specifika Iterativ BLAST (PSI-BLAST) (blastpgp): Användaren indata är en protei sekvens som returnerar en uppsättning av nära besläktade proteiner, och från denna datamängd en konserverad profil genereras. Nästa en ny fråga genereras med användning av endast dessa konserverade "motiv", som används för att utfråga en proteindatabas och detta ger en större grupp av proteiner från vilka en ny uppsättning av konserverade "motiv" extraheras och används därefter för att avfråga en proteindatabas tills en ännu större uppsättning proteiner trimmats och en annan profil genereras och processen upprepas. Genom att inkludera relaterade proteiner i frågan i varje steg här programmet gör det möjligt för användaren att identifiera sekvenser som är mer avvikande.

iv) Nukleotid 6-frame translation-protein (BLASTX): Här användaren ger en nukleotidsekvens ingång som omvandlas till de sex-frame begreppsöversättningsprodukter (dvs. båda strängarna) mot en proteinsekvensdatabas..

v) nukleotid 6-frame översättning-nukleotid6-frame translation (tblastx): Detta program tar en DNA-nukleotidsekvens som indata och översätter den inmatas i alla sex-frame konceptuella translationsprodukter vilka jämfördes mot de sex-frame översättningar av en nukleotidsekvens-databas.

vi) Protein-nukleotid 6-frame translation (TBLASTN): Detta program använder en proteinsekvens ingång för att jämföra mot alla sex läsramar av en nukleotidsekvens-databas.

Därefter beskriver vi ofta använda program för att generera en multipel sekvensinpassning (MSA) från en sekvens datauppsättning, och detta följs av en användarhandbok till program som bestämmer de bäst passar modeller av evolution för en sekvens dataset. Fylogenetisk rekonstruktion är ett statistiskt problem, och på grund av detta, fylogenetiska metoder måste införliva ett statistiskt ramverk. Denna statistiska ramen blir en evolutionär modell som inkorporerar sekvensförändringar i datasetet. Denna evolutionära model består av en uppsättning antaganden om processen med nukleotid eller amino-syrasubstitutioner, och den bäst anpassade modell för en viss datamängd kan väljas genom statistisk testning. Passningen till data av olika modeller kan jämföras via sannolikhet ratio test (LRTs) eller kriterier information för att välja den bäst anpassade modell inom en uppsättning möjliga sådana. Två vanliga informationskriterier är Akaike informationskriterium (AIC) 2 och Bayes informationskriterium (BIC) 3. När väl en optimal inpass genereras, det finns många olika metoder för att skapa en phylogeny från de inriktade data. Det finns många metoder för att dra slutsatsen evolutionära relationer, i stort sett kan de delas in i två kategorier: distansbaserade metoder och sekvensbaserade metoder. Distansbaserade metoder beräkna parvisa avstånd från sekvenser, och sedan använda dessa avstånd för att få trädet. Sekvensbaserade metoder använder sekvensuppställningen direkt, och oftast söka i tree rymden med hjälp av en optimakriterium. Vi skisserar två sekvensbaserade metoder för att rekonstruera fylogenetiska relationer: dessa är PhyML 4 som implementerar den maximala ramen sannolikhet, och mrbayes 5 som använder Bayesian Markov Chain Monte Carlo slutledning. Sannolikhet och Bayesianska metoder ger ett statistiskt ramverk för fylogenetisk rekonstruktion. Genom att ge användaren information om vanligen använda träd bygga verktyg, introducerar vi läsaren till de nödvändiga uppgifter som krävs för att sluta släktskapsförhållanden.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Online-gränssnitt Klicka på länken för att besöka BLAST 1 webbserver vid National Center for Biotechnology Information (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figur 1). Ingång en FASTA formaterad text sekvens (se figur 2 till exempel) i frågerutan. Klicka på lämplig program BLAST och relevant databas eller enskilda arter av int…

Representative Results

Att hitta likheter till en fråga tillåter forskare att tillskriva en potentiell identitet till nya sekvenser och även sluta relationer mellan sekvenser. Filen input typ för BLAST 1 är FASTA formaterad text sekvens eller GenBank tillträdesnummer. FASTA formaterad sekvens börjar med en beskrivning linje markeras med en ">"-tecken (figur 2). Beskrivningen måste följa omedelbart efter ">"-tecken, sekvensen (dvs.. Nukleotider eller aminosyror) följa bes…

Discussion

Vårt hopp för den här artikeln är att det kommer att fungera som en utgångspunkt för att vägleda forskare och studenter som är nya på fylogeni. Genomsekvenseringsprojekt har blivit billigare under de senaste åren och som en följd av efterfrågan på denna teknik användare ökar, och nu produktionen av stora sekvensdatamängder är vanligt i små labb. Dessa datamängder ger ofta forskare med uppsättningar av gener som kräver ett fylogenetiskt ramverk för att börja förstå deras funktion. Dessutom, efter…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Vi tackar medlemmar i O'Halloran labbet för kommentarer på manuskriptet. Vi tackar The George Washington University Institutionen för Biological Sciences och Columbian College of Arts and Sciences för Finansiering till D. O'Halloran.

Riferimenti

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Play Video

Citazione di questo articolo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video