Summary

En praktisk guide til Phylogenetics for Nonexperts

Published: February 05, 2014
doi:

Summary

Her beskriver vi en steg-for-steg-rørledningen for å generere pålitelige phylogenies fra nucleotide eller aminosyre sekvens datasett. Denne veiledningen tar sikte på å betjene forskere eller studenter nye til fylogenetisk analyse.

Abstract

Mange forskere, tvers utrolig variert foci, søker phylogenetics til deres problemstilling (er). Men mange forskere er ny på dette emnet, og så det presenterer iboende problemer. Her vi samle en praktisk innføring i phylogenetics for nonexperts. Vi skissere i en steg-for-steg måte, en rørledning for å generere pålitelige phylogenies fra gensekvensen datasett. Vi begynner med en bruker-guide for likhetssøkeverktøy via elektroniske grensesnitt samt lokale kjørbare. Neste, vi utforske programmer for å generere flere sekvenssammenstillinger fulgt av protokoller for å bruke programvare for å bestemme best tilpasning modeller av evolusjon. Vi deretter skissere protokoller for å rekonstruere fylogenetiske relasjoner via maximum likelihood og Bayesianske kriterier og til slutt beskrive verktøy for å visualisere fylogenetiske trær. Selv om dette er på ingen måte en uttømmende beskrivelse av fylogenetiske tilnærminger, gjør det gi leseren praktisk starter information på viktige programmer som vanligvis benyttes av phylogeneticists. Visjonen for denne artikkelen vil være at det kan tjene som et praktisk treningsverktøy for forskere fatt på fylogenetiske studier og også tjene som en pedagogisk ressurs som kan bli innlemmet i et klasserom eller undervisning-lab.

Introduction

For å forstå hvordan to (eller flere) arter utviklet seg, er det først nødvendig å oppnå sekvens eller morfologiske data fra hver prøve, og disse data representerer mengdene som vi kan bruke til å måle deres forhold gjennom evolusjonære plass. Akkurat som når man måler lineær avstand, å ha flere data tilgjengelige (f.eks miles, inches, mikron) vil likestille til en mer nøyaktig måling. Ergo, er nøyaktigheten som en forsker kan utlede evolusjonære avstand sterkt påvirket av volumet av informative data tilgjengelig for å måle relasjoner. Videre, fordi forskjellige prøver utvikle seg på forskjellige priser og av ulike mekanismer, den metoden som vi bruker for å måle forholdet mellom to taxa også direkte påvirker nøyaktigheten av evolusjonære målinger. Derfor, fordi evolusjonære relasjonene ikke er observert direkte, men i stedet er ekstrapolert fra sekvens eller morfologiske data, problemet med dedusere evolusjonærrelasjoner blir en av statistikken. Phylogenetics er den grenen av biologi opptatt med å bruke statistiske modeller for å mønstre av evolusjon for å optimalt rekonstruere den evolusjonære historien mellom taxa. Denne rekonstruksjonen mellom taxa er referert til som den taxa er fylogeni.

For å bygge bro over gapet i kompetanse mellom molekylærbiologer og evolusjonsbiologer vi beskriver her en trinnvis rørledning for dedusere phylogenies fra et sett av sekvenser. For det første, vi detalj trinnene involvert i databasen avhør ved hjelp av Basic Local Alignment Search Tool (BLAST 1) algoritme gjennom web-basert grensesnitt og også ved hjelp av lokale kjørbare, og dette er ofte første skritt i å få en liste over lignende sekvenser til en uidentifisert spørring, selv om enkelte forskere kan også være interessert i å samle inn data for en enkelt gruppe via web-grensesnitt som Phylota (http://www.phylota.net/). BLAST er en algoritme for comparing primære aminosyre eller nukleotid sekvens data mot en database av sekvenser for å søke etter "treff" som minner om spørresekvensen. BLAST-programmet ble utviklet av Stephen Altschul et al. ved National Institutes of Health (NIH) en. Den BLAST server består av et antall av forskjellige programmer, og her er en liste over noen av de mest vanlige BLAST program:

i) Nucleotide-nucleotide BLAST (blastn): Dette programmet krever en DNA sekvens innspill og returnerer mest lignende DNA-sekvenser fra DNA-database som brukeren oppgir (f.eks for en bestemt organisme).

ii) Protein-protein BLAST (blastp): Her kan brukeren innganger et protein sekvens og programmet returnerer de mest lignende proteinsekvenser fra protein database som brukeren angir.

iii) Posisjon Spesifikke Iterativ BLAST (PSI-BLAST) (blastpgp): Den brukerundersøkelser er en protei rekkefølge som returnerer et sett av nært beslektede proteiner, og fra dette datasettet en konservert profilen genereres. Neste en ny spørring blir generert ved hjelp av bare disse konserverte "motiver" som blir brukt til å avhøre en database protein, og dette gir en større gruppe av proteiner hvorfra et nytt sett av konserverte "motiver" er trukket ut, og deretter brukt til å avhøre en database protein før et enda større antall proteiner er returnert og andre profiler er generert, og prosessen gjentas. Ved å inkludere relaterte proteiner inn i søket i hvert trinn dette programmet gjør det mulig for brukeren å identifisere sekvenser som er mer sprikende.

iv) Nukleotid 6-ramme translasjons-protein (blastx): Her kan brukeren gir en nukleotidsekvens inngang som omdannes til seksramme konseptuelle translasjonsprodukter (dvs. begge tråder) mot en proteinsekvensdatabase..

v) nukleotid-6-ramme translasjons-nukleotid6-frame oversettelse (tblastx): Dette programmet tar en DNA nukleotidsekvens innspill og oversetter innspill til alle seks-frame konseptuelle oversettings produkter som det kan sammenlignes mot de seks ramme oversettelser av en nukleotidsekvensdatabasen.

vi) Protein-nukleotid-6-ramme oversettelse (tblastn): Dette program anvender en proteinsekvens-inngangen til sammenlignet med alle seks leserammer av en nukleotid-sekvens-database.

Deretter beskriver vi ofte brukte programmer for å generere en flersekvenssammenstilling (MSA) fra en sekvens datasettet, og dette er fulgt av en brukerguide til programmer som bestemmer de best-fit modeller av evolusjon for en sekvens datasett. Fylogenetisk rekonstruksjon er et statistisk problem, og på grunn av dette, fylogenetiske metoder må innlemme en statistisk rammeverk. Denne statistiske rammeverket blir en evolusjonær modell som inkorporerer sekvens endring i datasettet. Denne evolusjonære model består av et sett av antagelser om prosessen med nukleotid-eller amino-syreerstatninger, og den optimale modell for et bestemt datasett kan velges ved hjelp av statistisk testing. Den passer til de data av ulike modeller kan sammenlignes via likelihood ratio tester (LRTs) eller informasjons kriterier for å velge den optimale modellen innenfor et sett av mulige funn. To vanlige informasjons kriterier er Akaike informasjon kriteriet (AIC) 2 og bayesiansk informasjon kriteriet (BIC) tre. Når en optimal justering er generert, er det mange forskjellige metoder for å lage en fylogeni fra de sammenstilte data. Det finnes mange metoder for å dedusere evolusjonære relasjonene, grovt, kan de deles inn i to kategorier: distansebaserte metoder og sekvensbaserte metoder. Distansebaserte metoder beregne parvise avstander fra sekvenser, og deretter bruke disse avstander for å få treet. Sekvensbaserte metoder bruke sekvens justering direkte, og flest søk på tree plass ved hjelp av en optimalitet kriterium. Vi skissere to sekvensbaserte metoder for å rekonstruere fylogenetiske relasjoner: disse er PhyML fire som implementerer den maksimale sannsynligheten rammeverk, og MrBayes fem som bruker bayesiansk Markov Chain Monte Carlo slutning. Sannsynlighet og Bayesianske metoder gir et statistisk rammeverk for fylogenetisk rekonstruksjon. Ved å gi brukeren informasjon om brukte tre-bygningen verktøy, introduserer vi leseren til de nødvendige data som kreves for å antyde fylogenetiske relasjoner.

Protocol

En. Basic Local Alignment Search Tool (BLAST): Online-grensesnitt Klikk på denne linken for å besøke nettserveren ved National Center for Biotechnology Information (NCBI) BLAST en. – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figur 1). Input et FASTA formatert tekst sekvens (se Figur 2 for eksempel) i tekstboksen. Klikk på den aktuelle BLAST programmet og relevant database eller enkeltarter…

Representative Results

Finne likheter til en spørring tillater forskerne å tilskrive en potensiell identitet til nye sekvenser og også antyde sammenhenger mellom sekvenser. Filen input type for BLAST en er FASTA formatert tekst sekvens eller GenBank sjonsnummer. FASTA formatert sekvensen begynner med en beskrivelse linje angitt med et ">"-tegnet (figur 2). Beskrivelsen må følge umiddelbart etter ">"-tegnet, sekvensen (dvs.. Nukleotider eller aminosyrer) følger beskrivelsen p…

Discussion

Vårt håp for denne artikkelen er at det vil tjene som et utgangspunkt for å veilede forskere eller studenter som er nye til phylogenetics. Genomsekvense prosjekter har blitt billigere i løpet av de siste årene, og som en konsekvens av bruker etterspørsel etter denne teknologien er økende, og nå produksjon av store sekvens datasett er vanlig i små laboratorier. Disse datasettene ofte gi forskere med sett av gener som krever et fylogenetisk rammeverk for å begynne å forstå deres funksjon. Videre, fordi phyloge…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Vi takker medlemmene av O'Halloran lab for kommentarer til manuskriptet. Vi takker The George Washington University Department of Biological Sciences og Columbian College of Arts and Sciences om midler til D. O'Halloran.

Riferimenti

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/it/50975?article_type=t

Play Video

Citazione di questo articolo
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video