Summary

应用系统进化分析研究真核基因的起源

Published: August 14, 2018
doi:

Summary

本文介绍了一种基于原核生物中的真核生物和 SemiSWEETs 的糖序列同源性建立系统进化树的方法。系统进化分析是解释同源蛋白或不同生物体基因之间进化相关性的有用工具。

Abstract

系统发育分析使用核苷酸或氨基酸序列或其他参数, 如域序列和三维结构, 建立一棵树, 以显示不同分类群之间的进化关系 (归类单位) 在分子水平。系统进化分析也可以用来研究单个分类中的领域关系, 特别是对于那些经历了形态学和生理学上发生了实质性变化的有机体, 但由于研究人员缺乏化石证据,生物体的长期演化史或石化的稀缺性。

在本文中, 描述了一个详细的协议, 使用系统进化方法, 包括氨基酸序列对 Clustal 欧米茄, 和随后的系统进化树建设使用最大似然 (ML) 的分子进化遗传学分析 (兆) 和贝叶斯推理通过 MrBayes。为了研究真核糖的起源,最终将出口转运体 (甜) 基因, 分析了228种甜食, 包括35种来自单细胞真核生物的甜蛋白和来自原核生物的57甜蛋白。有趣的是, SemiSWEETs 被发现在原核生物, 但糖果被发现在真核生物。用理论上不同的方法构建的两种系统进化树一致认为, 第一真核甜基因可能来源于细菌甜基因和古细菌甜基因的融合。值得注意的是, 一个人应该谨慎地得出一个结论, 只基于系统进化分析, 虽然它是有用的, 以解释不同的分类群之间的潜在关系, 这是很难甚至不可能辨别通过实验手段.

Introduction

DNA 或 RNA 序列携带遗传信息的基础表型, 可以分析通过生理和生化方法或观察通过形态学和化石证据。从某种意义上说, 遗传信息比评价外部表型更为可靠, 因为前者是后者的基础。在进化研究中, 化石证据是非常直接和令人信服的。然而, 许多有机体, 例如微生物, 在长的地质时代几乎没有机会形成化石。因此, 分子信息, 如核苷酸序列和氨基酸序列从相关现存的有机体是有价值的探索进化关系1。在本研究中, 为需要自行构建系统进化树的新来者提供了基本的系统发育知识和易于学习的协议的简单介绍。

DNA (核苷酸) 和蛋白质 (氨基酸) 序列可以用来推断同源基因, 细胞器, 甚至有机体之间的系统发育关系2。DNA 序列更可能受到进化过程中变化的影响。相比之下, 由于核苷酸序列中的同义突变不会导致氨基酸序列的突变, 氨基酸序列的稳定性要稳定得多。因此, DNA 序列是有用的比较密切相关的生物体同源基因, 而氨基酸序列是适当的同源基因从远亲相关的生物3

系统发育分析始于氨基酸或核苷酸序列4从一个带注释的基因组测序数据库中检索到的5 FASTA 格式,假定或表达的蛋白质序列, RNA 序列或 DNA 序列。值得注意的是, 收集高质量的序列进行分析是至关重要的, 只有同源序列可以用来分析系统的系统关系。许多不同的平台, 如 Clustal W, Clustal X, 肌肉, T 咖啡, MAFFT, 可用于序列对准。最广泛使用的是 Clustal 欧米茄6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), 可以在线使用或可以免费下载。对齐工具有许多参数, 用户可以在开始对齐之前进行调整, 但默认参数在大多数情况下都很好地工作。完成该过程后, 对齐的序列应以正确的格式保存到下一步。然后, 应使用编辑软件 (如 BioEdit) 对其进行编辑或修剪, 因为巨型系统的进化树结构要求序列的长度相等 (包括氨基酸缩写和连字符)。在对齐序列中, 任何没有氨基酸或核苷酸的位置都用连字符 “-” 表示。一般来说, 在对齐的任何一端的突起的氨基酸或核苷酸都应该被移除。此外, 在对齐中包含不协调的序列的列可以被删除, 因为它们传递的信息很少, 有时会给出混淆或错误的信息3。包含一个或多个连字符的列可以在此时或在以后的树结构阶段删除。或者, 它们可以用于系统系统计算。当序列对齐和修剪完成后, 对齐序列应以 FASTA 格式或所需格式保存, 供以后使用。

许多软件平台使用不同的方法或算法提供树构造函数。通常, 这些方法可以分为距离矩阵法或离散数据法两种。距离矩阵方法计算简单、快速, 而离散数据方法复杂、耗时。对于与氨基酸或核苷酸序列标识高度共享的非常紧密相关的类群, 距离矩阵法 (邻域: 新泽西州;加权对群法与算术平均值: UPGMA) 是适当的;对于远亲群, 一种离散数据方法 (最大似然: ML;最大吝啬: MP;贝叶斯推断) 是最佳3,8。本研究将兆 (6.0.6) 和贝叶斯推理 (MrBayes 3.2) 的 ML 方法应用于构造系统进化树9。理想情况下, 当使用适当的模型和参数时, 从不同方法得出的结果可能是一致的, 因此它们更可靠、更有说服力。

对于使用巨型10构建的 ML 系统进化树, 必须将 FASTA 格式的对齐序列文件上载到程序中。然后, 第一步是为上载的数据选择最佳替代模型。所有可用替换模型都是根据上传的序列进行比较, 最后的分数将显示在结果表中。选择具有最小贝叶斯信息准则 (BIC) 评分 (表中第一列) 的模型, 根据推荐的模型设置 ML 参数, 并开始计算。计算时间从几分钟到数天不等, 具体取决于加载数据的复杂性 (序列的长度和分类数) 以及运行程序的计算机的性能。计算完成后, 将在新窗口中显示系统系统树。将文件另存为 “文件名. 垫”。设置参数以指定树的外观后, 再保存一次。利用该方法可以生成发布级系统树形图。

对于 MrBayes11的树结构, 第一步是将对齐序列 (通常以 FASTA 格式列出) 转换为关联格式 (. 作为文件类型的执行)。将 FASTA 文件转换为关联格式可以在兆超中进行处理。接下来, 将关联格式的对齐序列可以上载到 MrBayes 中。当文件成功上载时, 指定树计算的详细参数。这些参数包括氨基酸替代模型、变异率、马尔可夫链蒙特卡罗 (MCMC) 耦合的链数、ngen 数、分裂频率的平均标准偏差等细节。指定这些参数后, 开始计算。最后, 在 ASC II 代码中的两个树图, 一个显示分支可信度, 另一个显示分支长度, 将显示在屏幕上。

树结果将自动保存为 “FileName.nex.con”。此树文件可以由 FigTree 打开和编辑, 并且在 FigTree 中显示的图形可以进一步修改以使其更适合发布。

在本研究中, 分析了228甜蛋白, 包括单细胞真核生物35糖和 57 SemiSWEETs 的原核生物。糖和 SemiSWEETs 的特点是葡萄糖, 果糖, 或蔗糖转运体横跨膜12,13。系统发育分析表明, 含有甜食的两个 MtN3/saliva 域可能来源于细菌甜和 archaeon14的进化融合。

Protocol

1. 序列对准 在单独的文献中收集真核和原核甜的氨基酸序列, 并以 FASTA 格式列出它们。下载序列从国家生物技术信息中心 (NCBI), 欧洲分子生物学实验室 (EMBL) 和日本 DNA 数据库 (DDBJ) 数据库通过相似性搜索与基本的本地对齐搜索工具 (爆破) 工具。 在示例文件中, 收集228个假定的甜蛋白序列, 其中有两个 MtN3/saliva 域 (7 跨膜螺旋) 的真核生物和57甜蛋白序列拥有一个单一的 …

Representative Results

系统进化树表明, 所有的第一个 MtN3/saliva 域的35甜序列聚集作为一个分支和第二 MtN3/saliva 域的甜序列聚集作为另一个分支。此外, 糖果和 SemiSWEETs 的对准结果表明, 有些 SemiSWEETs 从α Proteobacteria 与甜序列的第一 MtN3/saliva 域对齐, 而 SemiSWEETs 从 Methanobacteria (古菌) 与第二 MtN3/saliva 对齐。甜序列的域。这些结果共同表明, 含有甜食的两个 MtN3/saliva 域可能来源于细菌甜和 archaeon<su…

Discussion

以核苷酸或氨基酸序列8为基础的进化树, 在生物研究中越来越受欢迎。一般情况下, 有三个关键阶段的实践包括序列对准, 对齐序列的评估与适当的方法或算法, 并可视化的计算结果作为系统进化树。在本研究中, 进行了三轮序列对准: 首先, 甜蛋白序列, 包括第一和第二 MtN3/saliva 域, 被排列;其次, 每个单独的 MtN3/saliva 域序列的糖果作为一个独立的分类收集和排列在一起;最后, 甜序?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

这项工作得到了中国国家自然科学基金 (31371596)、生物技术研究中心、中国三三峡大学 (2016KBC04) 和中国江苏省自然科学基金 (BK20151424) 的支持。

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).

Play Video

Cite This Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video