Summary

Usando a análise filogenética para investigar a origem de genes eucariontes

Published: August 14, 2018
doi:

Summary

É descrito um método de construção de uma árvore filogenética baseada em homologia de sequência de doces de eucariontes e SemiSWEETs de procariontes. A análise filogenética é uma ferramenta útil para explicar o parentesco evolutivo entre proteínas homólogas ou genes de grupos de organismo diferente.

Abstract

A análise filogenética usa nucleotídeos ou sequências de aminoácidos ou outros parâmetros, como sequências de domínio e de estrutura tridimensional, para construir uma árvore para mostrar a relação evolutiva entre táxons diferentes (unidades de classificação) o molecular nível. A análise filogenética também pode ser usada para investigar as relações de domínio dentro de um táxon individual, particularmente para os organismos que sofreram substancial alteração na morfologia e fisiologia, mas para que pesquisadores faltam evidência fóssil devido à história evolutiva longas dos organismos ou escassez de fossilização.

Neste texto, um protocolo detalhado é descrito por usando o método filogenético, incluindo o alinhamento de sequências de aminoácidos usando Clustal Omega e construção de árvore filogenética subsequentes usando ambos probabilidade máxima (ML) da genética evolutiva Molecular Análise (MEGA) e inferência Bayesiana via MrBayes. Para investigar a origem de genes eukaryotic Será de açúcares eventualmente ser exportados transportadores (doce), foram analisadas 228 doces, incluindo 35 proteínas doces de eucariontes unicelulares e 57 SemiSWEET proteínas de procariontes. Curiosamente, SemiSWEETs foram encontrados em procariontes, mas doces foram encontrados em eucariontes. Duas árvores filogenéticas construídas usando métodos teoricamente distintos consistentemente sugerem que o primeiro gene doce eucariótico pode derivar da fusão de um gene bacteriano meio amargo e um gene de archaeal meio amargo. É interessante notar que um deve ser cauteloso para desenhar uma conclusão baseada apenas na análise filogenética, embora seja útil explicar a relação subjacente entre táxons diferentes, o que é difícil ou mesmo impossível discernir através de meios experimentais .

Introduction

Sequências de DNA ou RNA carregam informação genética para fenótipos subjacentes que podem ser analisados através de métodos fisiológicos e bioquímicos ou observada através de evidências morfológicas e fósseis. Em certo sentido, a informação genética é mais confiável que avaliar fenótipos externos porque o anterior é a base para o último. No estudo evolutivo, a evidência fóssil é muito direta e convincente. No entanto, muitos organismos, tais como microorganismos, têm pouca chance de formar um fóssil durante o tempo geológicas idades. Portanto, a informação molecular como sequências nucleotídicas e sequências de aminoácidos de organismos existentes relacionados são de valor para explorar as relações evolutivas1. No presente estudo, uma simples introdução de conhecimentos básicos filogenético e um protocolo fácil de aprender foi fornecida para os novatos que precisam construir uma árvore filogenética por conta própria.

ADN (nucleotídeos) e sequências de proteínas (aminoácido) podem ser usadas para inferir relações filogenéticas entre genes homólogos, organelas ou mesmo organismos2. Sequências de DNA são mais susceptíveis de serem afectadas por alterações durante a evolução. Em contraste, as sequências de aminoácidos são muito mais estáveis, dado que mutações sinónimas em sequências nucleotídicas não causam mutações em sequências de aminoácidos. Como resultado, as sequências de ADN são úteis para comparação de genes homólogos de organismos aparentados, Considerando que as sequências de aminoácidos são apropriadas para genes homólogos de organismos distantemente relacionados3.

Uma análise filogenética começa com o alinhamento de aminoácidos ou de sequências de nucleotídeos4 Obtida de um genoma anotado sequenciamento de banco de dados5 listados no formato FASTA, ou seja, proteínas expressas ou putativa sequências, sequências de RNA , ou sequências de DNA. É interessante notar que é fundamental para recolher sequências de alta qualidade para a análise, e sequências homólogas só podem ser usadas para analisar relações filogenéticas. Muitas plataformas diferentes como Clustal W, Clustal X, músculo, T-café, MAFFT, pode ser usado para alinhamento de sequências. O mais amplamente utilizado é o Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), que pode ser usado on-line ou pode ser baixado gratuitamente da carga. A ferramenta de alinhamento tem muitos parâmetros que o usuário pode ajustar antes de iniciar o alinhamento, mas os parâmetros padrão funcionam bem na maioria dos casos. Depois que o processo for concluído, as sequências alinhadas devem ser salvo no formato correto para a próxima etapa. Eles devem ser editados ou aparada usando um software de edição, tais como BioEdit, porque a construção de árvore filogenética por MEGA requer as sequências para ser de igual comprimento (incluindo as abreviações de aminoácido e hifens. Na sequência alinhada, qualquer posição sem um aminoácido ou nucleotídeo é representada por um hífen “-“). Geralmente, todos os aminoácidos salientes ou nucleotídeos em cada extremidade do alinhamento devem ser removidos. Além disso, colunas que contêm sequências mal alinhadas no alinhamento podem ser excluídas porque eles transmitem pouca informação valiosa e às vezes podem dar confusas ou falsas informações3. As colunas que contêm um ou mais hífens podem ser excluídas neste momento ou em fase de construção de árvore mais tarde. Alternativamente, eles podem ser usados para cálculo filogenético. Quando o alinhamento de sequências e aparando for concluído, as sequências alinhadas devem ser salvo no formato FASTA, ou o formato desejado, para uso posterior.

Muitas plataformas de software fornecem funções de construção de árvore usando diferentes métodos ou algoritmos. Em geral, os métodos podem ser classificados como métodos de matriz de distância ou métodos de dados discretos. Métodos de matriz de distância são simples e rápidos para calcular, enquanto métodos de dados discretos são complicadas e demoradas. Para táxons muito estreitamente relacionados com um alto grau de compartilhamento da identidade de sequência de aminoácidos ou nucleótidos, um método de matriz de distância (vizinho ingressar: NJ; Método de grupo de pares não ponderada com média aritmética: UPGMA) é apropriado; para táxons distantemente relacionados, um método de dados discretos (máxima verossimilhança: ML; Máxima parcimônia: MP; Inferência Bayesiana) é ideal3,8. Neste estudo, os métodos de ML em MEGA (6.0.6) e inferência Bayesiana (MrBayes 3.2) foram aplicados para construir árvores filogenéticas9. Idealmente, quando o modelo apropriado e parâmetros são usados, os resultados derivados de métodos diferentes podem ser consistentes, e são, portanto, mais confiável e convincente.

Para uma árvore filogenética ML construída usando MEGA10, o arquivo de sequência alinhada no formato FASTA deve ser carregado no programa. Então, o primeiro passo é escolher o modelo ideal de substituição para os dados enviados. Todos os modelos de substituição disponíveis são comparados com base em sequências de carregado, e sua pontuação final será mostrada em uma tabela de resultados. Selecione o modelo com a menor pontuação BIC Bayesian Information Criterion () (listada primeiro na tabela), definir parâmetros de ML, de acordo com o modelo recomendado e começar a computação. O tempo de computação varia de alguns minutos a vários dias, dependendo da complexidade dos dados carregados (comprimento do número de táxons e sequências) e o desempenho do computador no qual os programas são executados. Quando o cálculo for concluído, uma árvore filogenética será mostrada em uma nova janela. Salve o arquivo como “FileName.mat”. Depois de definir parâmetros para especificar a aparência da árvore, salve mais uma vez. Usando esse método, MEGA pode gerar figuras de árvore filogenética de ano de publicação.

Para construção de árvore com MrBayes11, o primeiro passo é transformar a sequência alinhada, que normalmente é listada no formato FASTA, em formato de nexo (.nex como o tipo de arquivo). Transformar arquivos FASTA em formato nexus pode ser processado em MEGA. Em seguida, a sequência alinhada no formato nexus pode ser carregada em MrBayes. Quando o arquivo é carregado com êxito, especifica parâmetros detalhados para o cálculo de árvore. Esses parâmetros incluem detalhes como modelo de substituição de aminoácido, taxas de variação, número de cadeia de Markov chain Monte Carlo (MCMC) acoplamento, número ngen, média desvio-padrão de divisão de frequências e assim por diante. Depois que esses parâmetros foram especificados, inicie a computação. No final, duas figuras de árvore no código ASC II, uma apresentando credibilidade de clado e os outros comprimentos de ramo de apresentando, será exibido na tela.

O resultado da árvore será salvo automaticamente como “FileName.nex.con”. Este arquivo de árvore pode ser aberto e editado por FigTree, e a figura exibida no FigTree pode ser modificada ainda mais para torná-lo mais adequado para publicação.

Neste estudo, analisaram-se 228 doces proteínas, incluindo 35 doces de eucariontes unicelulares e 57 SemiSWEETs de procariontes, como exemplo. Os doces e o SemiSWEETs foram caracterizadas como glicose, frutose ou transportadores de sacarose através de membranas12,13. A análise filogenética sugere que os dois domínios MtN3/saliva contendo doces podem ser derivados de uma fusão evolutiva de um SemiSWEET bacteriana e de um archaeon14.

Protocol

1. alinhamento Recolher o amino-ácido sequências de doce eucariótica e procariótica SemiSWEET em documentos separados e listá-las no formato FASTA. Baixe sequências do centro nacional para Biotechnology Information (NCBI), laboratório Europeu de Biologia Molecular (EMBL) e o banco de dados de DNA de bancos de dados do Japão (DDBJ) pela busca de semelhança com a ferramenta básica Local alinhamento Search Tool (explosão). Nos arquivos de exemplo, coletar 228 sequências de p…

Representative Results

Árvores filogenéticas mostram que todos os domínios de MtN3/saliva primeiros das 35 doces sequências de cluster como um clado e os segundo domínios MtN3/saliva das sequências doces agrupados como outro clado. Além disso, os resultados do alinhamento dos doces e SemiSWEETs mostraram que alguns SemiSWEETs de α-proteobactérias alinhado com o primeiro domínio de MtN3/saliva das sequências doces, Considerando que SemiSWEETs de Methanobacteria (archaea) alinhado com o segundo MtN3/sa…

Discussion

Torna-se cada vez mais popular em pesquisas biológicas, para fazer uma árvore filogenética baseada em nucleotídeos ou sequências de aminoácidos8. Geralmente, existem três estágios críticos da prática incluindo alinhamento de sequências, avaliação das sequências alinhadas com o método adequado ou algoritmo e visualização do resultado computacional como uma árvore filogenética. No estudo apresentado, foram realizadas três rodadas de alinhamento da sequência: primeiro, as sequên…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi financiado pela Fundação de ciências naturais da província de Jiangsu, China (BK20151424), centro de pesquisa de Bio-tecnologia, China três gargantas University (2016KBC04) e a Fundação Nacional de ciências naturais da China (31371596).

Materials

Adobe Illustration a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017
BioEdit a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall
Clustal Omega a package for making multiple sequence alignments of amino acid or nucleotide sequences.  http://www.clustal.org/
CorelDRAW a graphic design software. Copyright © 2017 Corel Corporation
FigTree a graphical viewer of phylogenetic trees designed by the University of Edinburgh
MEGA MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home
MrBayes an Bayesian phylogenetic inference tool
NVIDIA a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017
PAUP Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models.
Photoshop a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017
RHYTHM a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group – Copyright 2007-2009
TMHMM a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/
Compter 4GB memory, Core 2 or above CPU. Windows 7, Windows 10

References

  1. Nei, M., Kumar, S. . Molecular Evolution and Phylogenetics. , (2000).
  2. Foth, B. J. Phylogenetic analysis to uncover organellar origins of nuclear-encoded genes. Methods Mol Biol. 390, 467-488 (2007).
  3. Baldauf, S. L. Phylogeny for the faint of heart: a tutorial. Trends Genet. 19, 345-351 (2003).
  4. Feng, D. F., Doolittle, R. F. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. J Mol Evol. 25, 351-360 (1987).
  5. Persson, B. Bioinformatics in protein analysis. EXS. 88, 215-231 (2000).
  6. Sievers, F., et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 7, 539 (2011).
  7. Sievers, F., Higgins, D. G. Clustal omega. Curr Protoc Bioinformatics. 48, 1-16 (2014).
  8. Yang, Z., Rannala, B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 13, 303-314 (2012).
  9. Hall, B. G. Comparison of the accuracies of several phylogenetic methods using protein and DNA sequences. Mol Biol Evol. 22, 792-802 (2005).
  10. Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol Biol Evol. 30, 2725-2729 (2013).
  11. Ronquist, F., et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Syst Biol. 61, 539-542 (2012).
  12. Chen, L. Q., et al. Sugar transporters for intercellular exchange and nutrition of pathogens. Nature. 468, 527-532 (2010).
  13. Xuan, Y., et al. Functional role of oligomerization for bacterial and plant SWEET sugar transporter family. Proc Natl Acad Sci USA. 110, 3685-3694 (2013).
  14. Hu, Y., et al. Phylogenetic evidence for a fusion of archaeal and bacterial SemiSWEETs to form eukaryotic SWEETs and identification of SWEET hexose transporters in the amphibian chytrid pathogen Batrachochytrium dendrobatidis. FASEB J. 30, 3644-3654 (2016).
  15. Holder, M. T., Zwickl, D. J., Dessimoz, C. Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes. Philos Trans R Soc Lond B Biol Sci. 363, 4013-4021 (2008).
  16. Alfaro, M. E., Holder, M. T. The Posterior and the Prior in Bayesian Phylogenetics. Annu Rev Ecol Evol Syst. 37, 19-42 (2006).
  17. Suchard, M., Rambaut, A. Many-core algorithms for statistical phylogenetics. Bioinformatics. 25, 1370-1376 (2009).
  18. Zierke, S., Bakos, J. FPGA acceleration of the phylogenetic likelihood function for Bayesian MCMC inference methods. BMC Bioinformatics. 11, 184 (2010).
check_url/kr/56684?article_type=t

Play Video

Cite This Article
Zhang, D., Kan, X., Huss, S. E., Jiang, L., Chen, L., Hu, Y. Using Phylogenetic Analysis to Investigate Eukaryotic Gene Origin. J. Vis. Exp. (138), e56684, doi:10.3791/56684 (2018).

View Video