Summary

Una guida pratica per Phylogenetics per i non esperti

Published: February 05, 2014
doi:

Summary

Qui si descrive un oleodotto step-by-step per la generazione di filogenesi affidabili da nucleotidiche o aminoacidiche set di dati di sequenza. Questa guida si propone di servire i ricercatori o studenti nuovi ad analisi filogenetica.

Abstract

Molti ricercatori, attraverso foci incredibilmente varia, stanno applicando filogenesi alla loro domanda di ricerca (s). Tuttavia, molti ricercatori sono nuovi a questo tema e quindi presenta problemi inerenti. Qui compiliamo un'introduzione pratica alla filogenesi per non esperti. Abbiamo delineare in maniera step-by-step, un gasdotto per la generazione di filogenesi affidabili da insiemi di dati di sequenza del gene. Iniziamo con una interfaccia user-guida per somiglianza strumenti di ricerca attraverso interfacce online così come eseguibili locali. Avanti, esploriamo i programmi per la generazione di allineamenti multipli di sequenze seguite da protocolli per l'utilizzo di software per determinare i modelli di best-fit dell'evoluzione. Abbiamo poi delineare protocolli per ricostruire le relazioni filogenetiche tramite massima verosimiglianza e criteri bayesiani e, infine, descrive gli strumenti per la visualizzazione di alberi filogenetici. Anche se questo non è affatto una descrizione esaustiva di approcci filogenetici, fornisce al lettore pratico informat di partenzaion su applicazioni software chiave comunemente utilizzati da phylogeneticists. La visione di questo articolo sarebbe che potrebbe servire come strumento di formazione pratica per i ricercatori intraprendono studi filogenetici ed anche servire come risorsa educativa che potrebbe essere inserito in una classe o di insegnamento-lab.

Introduction

Al fine di comprendere come due (o più) delle specie si è evoluta, è prima necessario ottenere sequenza o dati morfologici di ogni campione; questi dati rappresentano quantità che possiamo utilizzare per misurare il loro rapporto attraverso lo spazio evolutivo. Proprio come quando si misura la distanza lineare, avendo più dati disponibili (ad esempio miglia, pollici, micron) saranno equivalere a una misurazione più accurata. Ergo, la precisione con cui un ricercatore può dedurre la distanza evolutiva è fortemente influenzato dal volume di dati informativi disponibili per misurare i rapporti. Inoltre, poiché diversi campioni si evolvono a ritmi diversi e da diversi meccanismi, il metodo che usiamo per misurare la relazione tra due taxa influenza direttamente anche la precisione delle misurazioni evolutivi. Pertanto, poiché le relazioni evolutive non osservati direttamente ma invece sono estrapolate dalla sequenza o dati morfologici, il problema di inferire evolutivorelazioni diventa una delle statistiche. Phylogenetics è la branca della biologia in questione con l'applicazione di modelli statistici a modelli di evoluzione al fine di ricostruire in modo ottimale la storia evolutiva tra i taxa. Questa ricostruzione tra taxa viene indicato come filogenesi della specie.

Per contribuire a colmare il divario di conoscenze tra biologi molecolari e biologi evolutivi che descriviamo qui un passo per passo cantiere per inferire filogenesi da un insieme di sequenze. In primo luogo, abbiamo dettaglio i passaggi necessari per l'interrogazione del database utilizzando la base Local Alignment Search Tool (BLAST 1) algoritmo attraverso l'interfaccia web based e anche utilizzando eseguibili locali, questo è spesso il primo passo per ottenere un elenco di sequenze simili a un non meglio identificato interrogazione, anche se alcuni ricercatori potrebbero anche essere interessati a raccogliere dati per un singolo gruppo tramite interfacce web come Phylota (http://www.phylota.net/). BLAST è un algoritmo per comparing aminoacidica primaria o dati di sequenza nucleotidica con un database di sequenze per la ricerca di "hits" che ricordano la sequenza query. Il programma BLAST è stato progettato da Stephen Altschul et al. presso il National Institutes of Health (NIH) 1. Il server BLAST è costituito da un certo numero di programmi diversi, e qui è un elenco di alcuni dei programmi BLAST più comuni:

i) Nucleotide-nucleotide BLAST (BLASTN): Questo programma richiede un ingresso sequenza di DNA e restituisce le sequenze di DNA più simili dal database del DNA che l'utente specifica (ad esempio, per un organismo specifico).

ii) proteina-proteina BLAST (BLASTP): Qui l'utente immette una sequenza proteica e il programma ritorna sequenze proteiche più simili dal database proteina che l'utente specifica.

iii) BLAST iterativo Position-Specific (PSI-BLAST) (blastpgp): L'input utente è un prin sequenza che restituisce un insieme di proteine ​​strettamente correlate, e da questo insieme di dati viene generato un profilo conservati. Successiva una nuova interrogazione viene generata utilizzando solo questi "motivi" conservati che viene utilizzato per interrogare un database di proteine ​​e questo restituisce un ampio gruppo di proteine ​​da cui una nuova serie di "motivi" conservati sono estratti e poi utilizzato per interrogare un database proteina fino ancora più grande insieme di proteine ​​sono retuned e viene generato un altro profilo e il processo ripetuto. Includendo proteine ​​correlate nella query in ogni passo questo programma permette all'utente di identificare sequenze che sono più divergenti.

iv) Nucleotide 6-frame traduzione in proteine ​​(BLASTX): qui l'utente fornisce un ingresso sequenza nucleotidica che viene convertito nei sei fotogrammi concettuali prodotti di traduzione (cioè entrambi i filamenti) nei confronti di un database di sequenza della proteina..

v) Nucleotide 6-frame traduzione nucleotideTraduzione 6-frame (tblastx): Questo programma richiede un ingresso sequenza nucleotidica del DNA e traduce l'ingresso in tutti i sei fotogrammi prodotti di traduzione concettuali che si confronta contro le traduzioni sei fotogrammi di un database sequenza nucleotidica.

vi) Protein-nucleotide Traduzione 6-frame (TBLASTN): Questo programma utilizza un ingresso sequenza proteica da confrontare con tutte e sei le fasi di lettura di un database sequenza nucleotidica.

Avanti, descriviamo i programmi comunemente utilizzati per generare un allineamento di sequenze multiple (MSA) da un dataset sequenza, e questo è seguito da una guida d'uso di programmi che determinano i modelli di best-fit di evoluzione per un dataset sequenza. Ricostruzione filogenetica è un problema statistico, e per questo, metodi filogenetici necessario incorporare un quadro statistico. Questo quadro statistico diventa un modello evolutivo che incorpora il cambiamento sequenza all'interno del dataset. Questo mo evolutivodel comprende un insieme di ipotesi circa il processo di nucleotide o ammino-acidi sostituzioni, e il modello più adatto per un particolare insieme di dati può essere selezionata tramite test statistico. L'adattamento ai dati di diversi modelli possono essere confrontati con i test del rapporto di verosimiglianza (LRTS) o criteri di informazione per selezionare il modello più adatto all'interno di un insieme di quelli possibili. Due criteri informativi comuni sono l'informazione criterio di Akaike (AIC) 2 e il criterio di informazione bayesiano (BIC) 3. Una volta che un allineamento ottimale è generato, ci sono molti metodi diversi per creare una filogenesi dai dati allineati. Ci sono numerosi metodi di inferenza relazioni evolutive, in generale, possono essere suddivisi in due categorie: metodi basati sulla distanza e metodi basati su sequenza. Metodi Distance-based calcolare le distanze a coppie di sequenze, e quindi utilizzare queste distanze per ottenere l'albero. Metodi basati sequenza-usano l'allineamento di sequenza diretta, e di solito ricerche nel tspazio ree utilizzando un criterio di ottimalità. Noi delineare due metodi basati su sequenza per ricostruire le relazioni filogenetiche: sono PhyML 4 che implementa il quadro di massima verosimiglianza, e MrBayes 5 che utilizza bayesiano Markov Chain Monte Carlo inferenza. Probabilità e metodi bayesiani forniscono un quadro statistico per la ricostruzione filogenetica. Fornendo informazioni utente a comunemente usati strumenti di albero di costruzione, si introduce il lettore ai dati necessari richiesti per dedurre relazioni filogenetiche.

Protocol

1. Base Local Alignment Search Tool (BLAST): Interfaccia online Clicca su questo link per visitare il sito web del server BLAST 1 presso il National Center for Biotechnology Information (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1). Immettere una sequenza di testo formattato FASTA (vedi figura 2 per esempio) nella casella di ricerca. Fare clic sul programma BLAST appropriato e …

Representative Results

Trovare analogie a una query consente ai ricercatori di attribuiscono un potenziale identità nuove sequenze e anche deducono le relazioni tra le sequenze. Il tipo di input di file per BLAST 1 è FASTA sequenza di testo formattato o GenBank numero di accesso. Sequenza FASTA formattato inizia con una riga di descrizione indicata da un segno ">" (Figura 2). La descrizione deve seguire immediatamente dopo il segno ">", la sequenza (ad es. Nucleotidi o amminoaci…

Discussion

La nostra speranza per questo articolo è che servirà come punto di partenza per guidare ricercatori o studenti che sono nuovi per filogenesi. Progetti di sequenziamento del genoma sono diventati meno costosi nel corso degli ultimi anni e di conseguenza la domanda degli utenti per questa tecnologia è in aumento, e ora la produzione di grandi quantità di dati di sequenza è comune in piccoli laboratori. Questi dataset spesso forniscono ai ricercatori insiemi di geni che richiedono un quadro filogenetico per iniziare a…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ringraziamo i membri del laboratorio O'Halloran per i commenti sul manoscritto. Ringraziamo il Dipartimento dell'Università George Washington di Scienze Biologiche e colombiana Collegio delle Arti e delle Scienze per il finanziamento di D. O'Halloran.

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/cn/50975?article_type=t

Play Video

Cite This Article
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video