A Practical Guide to Phylogenetics for Nonexperts

A Practical Guide to Phylogenetics für Nichtexperten

Published: February 05, 2014

doi:

¹Department of Biological Sciences and Institute for Neuroscience,The George Washington University

Summary

Hier beschreiben wir eine Schritt-für-Schritt-Pipeline zum Erzeugen von zuverlässigen Phylogenien von Nukleotid-oder Aminosäuresequenz Datensätze. Dieser Leitfaden soll den Forschern oder Studenten neue phylogenetische Analyse dienen.

Abstract

Viele Forscher, auf unglaublich vielfältige Schwerpunkte sind die Anwendung phylogenetics, ihre Forschungs Frage (n). Allerdings sind viele Forscher neu in diesem Thema und so präsentiert sie inhärente Probleme. Hier erstellen wir eine praktische Einführung in phylogenetics für Nichtexperten. Wir skizzieren in einer Schritt-für-Schritt-Weise, eine Pipeline für die Erzeugung zuverlässiger Phylogenien Gensequenz von Datensätzen. Wir beginnen mit einem Benutzer-Leitfaden für Ähnlichkeitssuche über Online-Tools, Schnittstellen sowie lokale ausführbare Dateien. Weiter, wir Programme zur Erzeugung von multiplen Sequenz-Alignments, gefolgt von Protokollen für die Verwendung von Software, um Best-Fit-Modelle der Evolution bestimmen, zu erkunden. Wir skizzieren dann Protokolle für die Rekonstruktion phylogenetischen Beziehungen über Maximum-Likelihood-und Bayes-Kriterien zu beschreiben und schließlich Werkzeuge zur Visualisierung von Stammbäumen. Zwar ist dies keineswegs eine erschöpfende Beschreibung der phylogenetischen Ansätze, tut es dem Leser praktische Start informatIonen auf die wichtigsten Software-Anwendungen häufig von phylogeneticists genutzt. Die Vision für diesen Artikel wäre, dass es könnte als praktisches Trainingsgerät für Forscher sie sich auf phylogenetische Studien dienen und dienen auch als pädagogische Ressource, die in einem Klassenzimmer oder Lehrlabor aufgenommen werden könnte.

Introduction

Um zu verstehen, wie sich zwei (oder mehr) Spezies entwickelt, ist es zunächst erforderlich, Sequenz oder morphologische Daten von jeder Probe zu erhalten, diese Daten darstellen Mengen, die wir nutzen können, um ihre Beziehung durch evolutionäre Raum zu messen. Genau wie bei der Messung der Luftlinie, mit mehr Daten zur Verfügung (z. B. Meilen, Zoll, Mikrometer) wird zu einer genaueren Messung gleichzusetzen. Ergo, die Genauigkeit, mit der ein Forscher kann evolutionäre Distanz abzuleiten ist stark durch das Volumen der informativen Daten, um Beziehungen zu messen beeinflusst. Darüber hinaus, weil verschiedene Proben mit unterschiedlichen Geschwindigkeiten und durch unterschiedliche Mechanismen zu entwickeln, die Methode, die wir verwenden, um die Beziehung zwischen zwei Taxa messen auch direkten Einfluss auf die Richtigkeit der Evolutionsmessungen. Dadurch, dass evolutionären Beziehungen sind nicht direkt beobachtet, sondern aus Sequenz oder morphologischen Daten, das Problem der Ableitung evolutionären extrapoliertBeziehungen zu einem der Statistik. Phylogenetics ist der Zweig der mit der Anwendung statistischer Modelle, Muster der Evolution, um optimal zu rekonstruieren, die evolutionäre Geschichte zwischen Taxa betroffenen Biologie. Diese Rekonstruktion zwischen Taxa wird als der Taxa der Stammesgeschichte bezeichnet.

Um zu helfen, die Lücke im Fachwissen zwischen Molekularbiologen und Evolutionsbiologen beschreiben wir hier eine Schritt für Schritt-Pipeline zur Ableitung Phylogenien aus einer Menge von Sequenzen. Erstens haben wir ausführlich die Schritte im Datenbankabfrage, die Basic Local Alignment Search Tool ^{(BLAST-1)-Algorithmus} über die Web-basierte Schnittstelle und auch mit lokalen Executables beteiligt, dies ist oft der erste Schritt bei der Erlangung einer Liste von ähnlichen Sequenzen an einen unbekannten Abfrage, obwohl einige Forscher vielleicht auch an der Sammlung von Daten für eine einzelne Gruppe über Web-Schnittstellen wie Phylota (http://www.phylota.net/). BLAST ist ein Algorithmus für comparing primären Aminosäure-oder Nukleotid-Sequenzdaten mit einer Datenbank von Sequenzen für "Hits", der die Abfragesequenz ähneln suchen. Das BLAST-Programm wurde von Stephen Altschul et al ausgelegt. an der National Institutes of Health (NIH) ^ein. Die BLAST-Server besteht aus einer Reihe verschiedener Programme, und hier ist eine Liste von einigen der häufigsten BLAST-Programme:

i) Nukleotid-Nukleotid-BLAST (blastn): Dieses Programm erfordert eine DNA-Sequenz-Eingang und gibt die meisten ähnliche DNA-Sequenzen aus der DNA-Datenbank, die der Benutzer angibt (z. B. für einen bestimmten Organismus).

ii) Protein-Protein-BLAST (blastp): Hier gibt der Benutzer eine Proteinsequenz und das Programm kehrt die ähnlichsten Proteinsequenzen aus der Proteindatenbank, die der Benutzer angibt.

iii) Position-Specific Iterative BLAST (PSI-BLAST) (blastpgp): Die Benutzereingabe ist ein protein Sequenz, die eine Reihe von eng verwandten Proteinen gibt, und aus diesem Datensatz eine konservierte Profil erzeugt. Als nächstes wird eine neue Abfrage wird unter Verwendung nur dieser konservierten "Motive", die verwendet wird, um ein Protein-Datenbank abzufragen erzeugt und dieses liefert eine größere Gruppe von Proteinen aus dem ein neuer Satz von konservierten "Motive" extrahiert und dann verwendet, um ein Protein-Datenbank abzufragen, bis eine noch größere Reihe von Proteinen werden erneut abgestimmt und ein anderes Profil erzeugt wird, und der Vorgang wiederholt. Indem verwandten Proteinen in der Abfrage in jedem Schritt dieses Programm ermöglicht dem Benutzer, die mehr divergierenden Sequenzen zu identifizieren.

iv) Nukleotid-6-Frame-Übersetzung-Protein (blastx): Hier stellt der Benutzer eine Nukleotid-Sequenz-Eingang, der in die sechs-konzeptionellen Rahmen Translationsprodukte (dh umgewandelt wird, beide Stränge) gegen eine Proteinsequenz-Datenbank..

v) 6-Nucleotid-Nucleotid-Frame-Übersetzung6-Raster-Translation (tblastx): Dieses Programm nimmt eine DNA Nukleotidsequenz Eingang und wandelt die Eingabe in allen sechs Rahmen Translation der Produkte, die sie gegen die sechs-Rahmen-Übersetzung einer Nukleotidsequenz-Datenbank vergleicht.

vi) Protein-Nukleotid-6-Raster-Translation (tblastn): Dieses Programm verwendet eine Proteinsequenz Eingangs gegen alle sechs Leseraster einer Nukleotidsequenz-Datenbank zu vergleichen.

Weiter beschreiben wir häufig verwendete Programme zur Erzeugung eines Multiple Sequenz Alignment (MSA) aus einer Sequenz-Datensatz, und dies wird durch eine Benutzerführung, um Programme, die die Best-Fit-Modelle der Evolution für eine Sequenz-Datensatz zu bestimmen gefolgt. Die phylogenetische Rekonstruktion ist ein statistisches Problem, und aus diesem Grund, müssen phylogenetischen Methoden, um einen statistischen Rahmen zu integrieren. Diese statistischen Rahmen wird ein Evolutionsmodell, das Sequenzänderung innerhalb des Datasets enthält. Dieser evolutionäre model ist aus einer Reihe von Annahmen über den Prozess der Nukleotid-oder Aminosäure-Substitutionen umfasst und die Best-Fit-Modell für eine bestimmte Datenmenge kann durch statistische Tests ausgewählt werden. Die Anpassung an die Daten der verschiedenen Modelle können über Likelihood Ratio Tests (LRT) oder Informationskriterien, um die Best-Fit-Modell innerhalb einer Reihe von möglichen zu wählen verglichen werden. Zwei gemeinsame Informationskriterien sind das Akaike Informationskriterium (AIC) ² und die Bayes-Informationskriterium (BIC) ^3. Sobald eine optimale Ausrichtung erzeugt wird, gibt es viele verschiedene Methoden, um eine phylogeny aus den ausgerichteten Daten. Es gibt zahlreiche Methoden zur Ableitung evolutionären Beziehungen; breit sind, können sie in zwei Kategorien unterteilt werden: abstandsbasierten Verfahren und sequenzbasierte Methoden. Distanz-basierte Methoden berechnen paarweisen Abstände von Sequenzen, und verwenden Sie diese Abstände, um den Baum zu erhalten, dann. Sequenz-basierte Methoden verwenden das Sequenz-Alignment direkt, und in der Regel suchen die tree Raum mit einem Optimalitätskriterium. Wir skizzieren zwei Sequenz-basierte Methoden zur Rekonstruktion von Verwandtschaftsbeziehungen: das sind PhyML ^4, die das Maximum-Likelihood-Framework implementiert und mrbayes ^5, die Bayes-Markov-Chain-Monte-Carlo-Inferenz verwendet. Wahrscheinlichkeit und Bayes-Methoden liefern eine statistischen Rahmen für phylogenetische Rekonstruktion. Durch die Bereitstellung von Informationen über Benutzer häufig verwendete Baum-Gebäude-Tools, führen wir den Leser auf die notwendigen Daten erforderlich, um Verwandtschaftsverhältnisse zu schließen.

Protocol

1. Grund Local Alignment Search Tool (BLAST): Online-Schnittstelle Klicken Sie auf diesen Link, um den BLAST ein Web-Server am National Center for Biotechnology Information (NCBI) zu besuchen. – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Abbildung 1). Geben Sie einen formatierten Text FASTA Sequenz (siehe Abbildung 2 zum Beispiel) in das Suchfeld. Klicken Sie auf den entsprechenden BLAST-Progra…

Representative Results

Die Suche nach Ähnlichkeiten zu einer Abfrage ermöglicht es den Forschern, um eine mögliche Identität, neue Sequenzen zuschreiben und auch schließen, Beziehungen zwischen Sequenzen. Die Datei Eingangstyp für BLAST ist ein FASTA formatierten Text-Sequenz oder GenBank-Zugangsnummer. FASTA formatierte Sequenz beginnt mit einem durch ein ">"-Zeichen (Abbildung 2) angegeben Beschreibungszeile. Die Beschreibung muss unmittelbar nach dem Zeichen ">", der Folge (dh…

Discussion

Unsere Hoffnung für diesen Artikel ist, dass es als Ausgangspunkt dienen, um Forscher und Studenten, die neu für phylogenetics sind zu führen. Genomsequenzierungsprojekte sind günstiger geworden in den letzten Jahren und in der Folge die Nachfrage der Nutzer nach dieser Technologie nimmt zu, und jetzt ist die Produktion von großen Datenmengen Sequenz ist alltäglich in kleinen Labors. Diese Datensätze bieten oft Forscher mit Gruppen von Genen, die eine phylogenetische Rahmen benötigen, um zu beginnen, um ihre Fun…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Wir danken Mitglieder der O'Halloran Labor für Kommentare zum Manuskript. Wir danken der George Washington University Department of Biological Sciences und Columbian College of Arts and Sciences für die Finanzierung der Maßnahmen D. O'Halloran.

Materials

BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

References

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

A Practical Guide to Phylogenetics für Nichtexperten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

A Practical Guide to Phylogenetics für Nichtexperten

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below