Summary

Um Guia Prático para Phylogenetics para não especialistas

Published: February 05, 2014
doi:

Summary

Aqui nós descrevemos um gasoduto passo-a-passo para a geração de filogenias confiáveis ​​de nucleotídeos ou aminoácidos conjuntos de dados de seqüência. Este guia destina-se a servir os investigadores ou alunos novos para a análise filogenética.

Abstract

Muitos pesquisadores, através de focos extremamente diversificado, estão aplicando filogenia à sua pergunta (s) de pesquisa. No entanto, muitos pesquisadores são novos para este tema e por isso apresenta problemas inerentes. Aqui nós compilamos uma introdução prática ao filogenética para não especialistas. Nós delinear de forma passo-a-passo, de um gasoduto para gerar filogenias confiáveis ​​de conjuntos de dados de seqüência de genes. Começamos com um guia do usuário para ferramentas de busca de similaridade por meio de interfaces online, bem como executáveis ​​locais. Em seguida, vamos explorar os programas de geração de alinhamentos de seqüência múltiplas seguidas de protocolos para a utilização de software para determinar modelos de melhor ajuste de evolução. Nós, então, delinear protocolos para reconstruir as relações filogenéticas via máxima verossimilhança e critérios bayesianos e, finalmente, descrever ferramentas para visualização de árvores filogenéticas. Enquanto isso não é de forma alguma uma descrição exaustiva das abordagens filogenéticas, ele fornece ao leitor prático informat começandoíon em aplicações de software chave comumente utilizadas por filogeneticistas. A visão para este artigo seria que ela poderia servir como uma ferramenta de treinamento prático para os pesquisadores que embarcam em estudos filogenéticos e também servir como um recurso educacional que pode ser incorporado em uma sala de aula ou de ensino-laboratório.

Introduction

A fim de entender como duas (ou mais) espécies evoluíram, primeiro é necessário obter seqüência ou dados morfológicos de cada amostra, estes dados representam quantidades que podemos usar para medir o seu relacionamento através do espaço evolutivo. Assim como quando medir a distância linear, com mais dados disponíveis (por exemplo, milhas, polegadas, microns) vai equivaler a uma medição mais precisa. Ergo, a precisão com que um pesquisador pode deduzir distância evolutiva é fortemente influenciado pelo volume de dados informativos disponíveis para medir relacionamentos. Além disso, porque as diferentes amostras evoluir a taxas diferentes e por diferentes mecanismos, o método que usamos para medir a relação entre dois táxons também influencia diretamente a precisão das medições evolutivas. Portanto, porque as relações evolutivas não são diretamente observados, mas em vez disso são extrapolados a partir de seqüência ou dados morfológicos, o problema de inferir evolutivarelações torna-se uma das estatísticas. Filogenia é o ramo da Biologia que estuda aplicação de modelos estatísticos para padrões de evolução, a fim de reconstruir a história evolutiva de forma otimizada entre táxons. Esta reconstrução entre taxa é conhecida como filogenia da taxa.

Para ajudar a preencher a lacuna no conhecimento entre biólogos moleculares e biólogos evolucionistas que descrevemos aqui um passo a passo gasoduto para inferir filogenias a partir de um conjunto de seqüências. Em primeiro lugar, detalhamos os passos envolvidos no interrogatório de banco de dados usando o Básico Local Alignment Search Tool (BLAST 1) algoritmo através da interface baseada na web, e também usando executáveis ​​locais, o que é muitas vezes o primeiro passo para a obtenção de uma lista de seqüências similares a um não identificado consulta, embora alguns pesquisadores também pode estar interessado em coleta de dados para um único grupo através de interfaces web, como Phylota (http://www.phylota.net/). BLAST é um algoritmo para cOMPARAÇÃO aminoácido primário ou dados de seqüência de nucleotídeos contra um banco de dados de sequências para procurar "hits" que se assemelham a seqüência de consulta. O programa BLAST foi desenhado por Stephen Altschul et al. no National Institutes of Health (NIH) 1. O servidor BLAST consiste em uma série de programas diferentes, e aqui está uma lista de alguns dos programas BLAST mais comuns:

i) BLAST nucleotídeo-nucleotídeo (blastn): Este programa requer uma entrada de seqüência de DNA e retorna as seqüências de DNA mais similares do banco de dados de DNA que o usuário especifica (por exemplo, por um organismo específico).

ii) BLAST proteína-proteína (blastp): Aqui o usuário insere uma seqüência de proteína eo programa retorna as seqüências protéicas mais similares do banco de dados de proteínas que o usuário especifica.

iii) BLAST iterativo-Posição Específica (PSI-BLAST) (blastpgp): A entrada do usuário é uma proteem seqüência que retorna um conjunto de proteínas estreitamente relacionados e, a partir deste conjunto de dados é gerado um perfil conservada. Em seguida uma nova consulta é gerada utilizando apenas estes "motivos" conservadas, que é utilizado para interrogar uma base de dados de proteína e esta retorna um grupo maior de proteínas a partir do qual um novo conjunto de "motivos" conservadas são extraídos e, em seguida, utilizada para interrogar um banco de dados de proteínas, até um conjunto ainda maior de proteínas são afinados e outro perfil é gerado eo processo é repetido. Com a inclusão de proteínas relacionadas na consulta em cada etapa deste programa permite ao usuário identificar sequências que são mais divergentes.

iv) Nucleotide 6-frame tradução em proteínas (blastx): Aqui o usuário fornece uma entrada sequência de nucleotídeos que é convertido em os seis quadros conceituais produtos de tradução (ou seja, ambas as vertentes) contra um banco de dados de sequências de proteínas..

v) nucleotídeo 6-frame tradução de nucleotídeoTradução 6-frame (tblastx): Este programa tem uma entrada de seqüência de nucleotídeos do DNA e traduz a entrada em todos os seis quadros conceituais produtos de tradução que se compara contra as traduções de seis quadros de um banco de dados de seqüência de nucleotídeos.

vi) Proteína de nucleotídeo tradução 6-frame (tblastn): Este programa usa uma entrada de seqüência de proteína para comparar com todos os seis quadros de leitura de um banco de dados de seqüência de nucleotídeos.

A seguir, descrevemos programas comumente usados ​​para gerar uma seqüência múltipla de alinhamento (MSA) a partir de um conjunto de dados de seqüência, e isso é seguido por um guia do usuário para programas que determinam os modelos de melhor ajuste de evolução para um conjunto de dados de seqüência. Árvore filogenética é um problema de análise estatística, e por isso, os métodos filogenéticos precisa incorporar um quadro estatístico. Este quadro estatístico torna-se um modelo evolutivo que incorpora mudança seqüência dentro do conjunto de dados. Este mo evolutivadel é composto de um conjunto de hipóteses sobre o processo de substituições de nucleotídeos ou amino-ácidos, eo modelo de melhor ajuste para um conjunto de dados em particular podem ser selecionados por meio de testes estatísticos. O ajuste aos dados de diferentes modelos podem ser comparados através de testes de razão de verossimilhança (LRTS) ou critérios de informação para selecionar o modelo que melhor se ajusta dentro de um conjunto de possíveis. Dois critérios de informação comuns são as informações critério de Akaike (AIC) 2 eo critério de informação Bayesiano (BIC) 3. Uma vez que um alinhamento óptimo é gerado, há muitos métodos diferentes para criar uma filogenia dos dados alinhados. Existem vários métodos de inferir relações evolutivas; amplamente, eles podem ser divididos em duas categorias: métodos baseados em distância e métodos baseados em seqüência. Métodos baseados em Distância calcular distâncias entre pares de sequências, e, em seguida, usar essas distâncias para obter a árvore. Métodos baseados em Sequência utilizar o alinhamento da sequência directa, e geralmente pesquisar a tree espaço usando um critério de otimização. Nós delineamos dois métodos baseados em seqüência para reconstruir as relações filogenéticas: são PhyML 4, que implementa a estrutura de máxima verossimilhança, e MrBayes 5 que usa Bayesian Markov Chain Monte Carlo inferência. Probabilidade e métodos bayesianos fornecer um quadro estatístico para a reconstrução filogenética. Ao fornecer informações do usuário em ferramentas de construção de árvore comumente utilizados, apresentamos ao leitor os dados necessários para inferir relações filogenéticas.

Protocol

1. Básico Local Alignment Search Tool (BLAST): interface on-line Clique neste link para visitar o web server BLAST 1 do Centro Nacional de Informações sobre Biotecnologia (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1). Entrada de uma seqüência de texto formatado FASTA (ver Figura 2, por exemplo) na caixa de consulta. Clique no programa BLAST apropriado e banco de dados rele…

Representative Results

Encontrar semelhanças a uma consulta permite que os pesquisadores atribuem uma identidade potencial para novas seqüências e também inferir relações entre seqüências. O tipo de entrada de arquivo para BLAST é uma seqüência FASTA texto formatado ou GenBank número de acesso. Seqüência FASTA formatado começa com uma linha de descrição indicado por um sinal ">" (Figura 2). A descrição deve seguir imediatamente após o sinal ">", a seqüência (isto …

Discussion

Nossa esperança para este artigo é que ele vai servir como um ponto de partida para orientar pesquisadores ou estudantes que são novos para filogenia. Projetos de seqüenciamento do genoma tornaram-se menos caro ao longo dos últimos anos e, como conseqüência, a demanda do usuário para esta tecnologia é cada vez maior, e agora a produção de grandes conjuntos de dados de seqüência é comum em pequenos laboratórios. Esses conjuntos de dados, muitas vezes fornecer pesquisadores com conjuntos de genes que exigem…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Agradecemos a membros do laboratório O'Halloran para comentários sobre o manuscrito. Agradecemos a The George Washington University Departamento de Ciências Biológicas e colombiana Faculdade de Artes e Ciências de financiamento para D. O'Halloran.

References

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/fr/50975?article_type=t

Play Video

Citer Cet Article
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video