A Practical Guide to Phylogenetics for Nonexperts

实用指南系统发育的非专家

Published: February 05, 2014

doi:

10.3791/50975

Damien O’Halloran

¹Department of Biological Sciences and Institute for Neuroscience,The George Washington University

Summary

这里，我们描述了一步一步管道，用于从核苷酸或氨基酸序列数据集可靠的系统发育。本指南的目的是服务于研究人员或学生对新的系统发育分析。

Abstract

许多研究者，跨越令人难以置信的多样化灶，正在申请系统学他们的研究问题（次）。然而，许多研究人员是新的这个话题，所以它呈现固有的问题。在这里，我们编译一个实用介绍系统发育的非专家。我们概述了一步一步的方式，管道用于从基因序列数据集可靠的系统发育。我们从一个用户指南的相似性搜索工具通过在线接口以及本地可执行文件。接下来，我们将探讨产生多序列比对后，使用软件来确定进化的最佳拟合模型协议的程序。然后，我们通过最大似然法和贝叶斯准则概述协议进行重建亲缘关系，最后描述了工具的可视化系统进化树。虽然这是不以任何手段的进化方法的详尽描述，它为读者提供实用的开始了信息离子由phylogeneticists普遍使用的关键软件应用程序。该愿景这篇文章将是它可以作为一个实用的培训工具，研究人员着手进行系统发育研究，也作为可能被纳入到教室或教学实验室的教育资源。

Introduction

为了了解两个（或更多）的物种是如何进化，首先需要从每个样品获得的序列或形态数据，这些数据代表的数量，我们可以通过使用进化空间来衡量他们的关系。只是测量直线距离时，其可用（ 例如，英里，英寸，微米）更多的数据将等同于一个更精确的测量喜欢。测功，与研究者可以推断进化距离的精度在很大程度上受到可用来测量关系信息的数据量的影响。此外，因为不同样品演变以不同的速率和通过不同的机制，我们用来测量两个类群之间的关系的方法也直接影响进化测量的精度。因此，由于进化的关系并不直接观察，而是从序列或形态学数据，推断进化的问题外推关系变成统计中的一个。系统发生学是生物学关注的运用统计模型的进化模式，以优化重构类群间的进化史的分支。分类单元之间的这种重建被称为类群的系统发育关系 。

为了帮助弥合分子生物学家和进化生物学家我们在这里介绍一步步管道从一组序列的系统发育推断之间在专业知识的差距。首先，我们详细地使用基本局部比对搜索工具（BLAST ^1）的算法，通过基于web的接口，并通过使用本地可执行涉及数据库询问的步骤，这是经常在获得相似序列的列表，以一个身份不明的第一步查询，虽然一些研究人员还可能有兴趣在收集数据的单个组通过网络接口，如Phylota（http://www.phylota.net/）。 BLAST是一个算法Comparing对序列数据库的一级氨基酸或核苷酸序列数据来搜索“命中”，类似的查询序列。 BLAST程序是由斯蒂芬Altschul 等设计。在美国国立卫生研究院^{（NIH）1。}爆炸服务器由许多不同的程序，这里是一些最常见的BLAST程序的列表：

I） 核苷酸-核苷酸BLAST（BLASTN）：此程序需要的DNA序列输入和从DNA数据库返回最相似的DNA序列，用户指定（如特定的生物）。

ⅱ） 蛋白质-蛋白质BLAST（BLASTP）：在这里，用户输入的蛋白序列和程序从用户指定的蛋白质数据库返回最相似的蛋白序列。

三） 特定位置的迭代BLAST（PSI-BLAST）（blastpgp）：用户输入是一个保护制服在序列，其返回一组密切相关的蛋白质，并从这个数据集在一个保守的更新生成的。接下来一个新的查询只使用其中用于询问蛋白质数据库中的这些保守的“图案”产生，这会返回一个更大的组蛋白的这一套新的保守的“图案”被提取，然后用询问的蛋白质数据库中，直到一个更大的组蛋白被重新调谐，并产生另一个配置文件并重复该过程。由包括相关蛋白质进入每个步骤中的查询这个程序允许用户确定比较发散序列。

ⅳ） 核苷酸6帧翻译蛋白质（BLASTX）：这里的用户提供了转换成六格概念翻译产物（即核苷酸序列输入两条链）与蛋白质序列数据库。

V） 核苷酸6帧翻译核苷酸6帧转换（TBLASTX）：这个程序需要一个DNA核苷酸序列的输入和转换输入到它比较反对的核苷酸序列数据库的六框翻译全部六个框架概念翻译产物。

六） 蛋白质-核苷酸6帧转换（TBLASTN）：这个程序使用了蛋白质序列输入要与之比较的核苷酸序列数据库的所有六个阅读框。

接下来，我们将介绍常用的方案，以便从序列数据集生成多序列比对（MSA），这之后是一个用户指南，以确定进化的最佳拟合模型序列数据集节目。系统发育重建是一个统计问题，并且因为这一点，系统发育分析方法需要将一个统计框架。这个统计框架成为它采用了数据集中的顺序变化的演化模型。这种进化莫德尔是由一组有关的核苷酸或氨基酸的替换过程的假设的，并为特定的数据集的最佳拟合模型可以通过统计测试来选择。将适合不同型号的数据可以通过似然比检验（LRTS）或信息标准，在一组可能的人选择最合适的模型进行比较。两种常见的信息标准是赤池信息量准则^（AIC）2和贝叶斯信息准则^{（BIC）3。}一旦一个最佳比对产生时，有许多不同的方法来创建自对准的数据的系统发育关系。还有推断的进化关系的多种方法;广泛地说，它们可分为两类：基于距离的方法和基于序列的方法。基于距离的计算方法从序列成对距离，然后用这些距离来获得树。基于序列的方法，直接使用序列比对，通常搜索吨采用最优标准REE空间。我们概述2基于序列的方法来重建系统发育关系：这些都是PHYML ^4，它实现了最大似然框架，MrBayes ⁵它采用贝叶斯马尔可夫链蒙特卡罗推论。似然和贝叶斯方法提供了系统发育重建一个统计框架。通过提供对常用树构建工具的用户信息，我们将为读者介绍来推断亲缘关系所需的必要数据。

Protocol

1。基本局部比对搜索工具（BLAST）：在线界面点击该链接访问BLAST 1 web服务器在国家生物技术信息中心（NCBI）。 – http://blast.ncbi.nlm.nih.gov/Blast.cgi （图1）。输入一个FASTA格式的文本序列（见图2为例）在查询框。单击相应的BLAST程序和相关数据库或感兴趣的个别品种在搜索中使用，然后单击“BLAST”。 …

Representative Results

寻找相似的查询可以让研究人员归咎于一个潜在的身份，以新的序列，并推断序列之间的关系。高炉1文件输入类型是FASTA格式的文本序列或GenBank登录号。 FASTA格式的序列开始与一个“>”符号（图2）所示的描述一致。描述必须与“>”符号，序列（即，核苷酸或氨基酸）跟随在下一行的描述后，立即跟进。在保存和编辑序列文件，最好使用文本编辑器如PC或TextWrang…

Discussion

我们希望这篇文章是它将作为一个出发点，引导研究人员或学生，是新的系统发育。基因组测序计划已经变得不那么昂贵，在过去的几年里，因而这种技术，用户需求在不断增加，现在生产的大型数据集的顺序是司空见惯的小型实验室。这些数据集通常为研究人员提供的基因组需要一个进化的框架开始了解它们的功能。此外，由于系统发育是找到一个家在越来越多的研究实验室，我们还打算对这?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

我们感谢洛伦实验室的成员，对稿件的意见。我们感谢乔治华盛顿大学系生物科学与艺术和科学的哥伦比亚学院拨款，D.洛伦。

Materials

BLAST webpage			http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables			ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databases			ftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustal			http://www.clustal.org/
Kalign			http://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFT			http://mafft.cbrc.jp/alignment/software/
MUSCLE			http://www.drive5.com/muscle/
T-Coffee			http://www.tcoffee.org/Projects/tcoffee/
PROBCONS			http://toolkit.tuebingen.mpg.de/probcons
Se-Al			http://tree.bio.ed.ac.uk/software/seal/
BSEdit			http://www.bsedit.org/
JalView			http://www.jalview.org/
SeaView			http://pbil.univ-lyon1.fr/software/seaview.html
ProtTest			https://code.google.com/p/prottest3/
Java Runtime			http://www.java.com/en/download/chrome.jsp
Readseq			http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTest			https://code.google.com/p/jmodeltest2/
PhyML			https://code.google.com/p/phyml/
MrBayes			http://mrbayes.sourceforge.net/download.php
TreeView			http://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDyn			http://www.treedyn.org/

Riferimenti

Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

实用指南系统发育的非专家

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

实用指南系统发育的非专家

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below