Summary

Un guide pratique pour Phylogenetics pour non-experts

Published: February 05, 2014
doi:

Summary

Nous décrivons ici un pipeline étape-par-étape pour générer phylogénies fiables de nucléotides ou d'acides aminés des ensembles de données de séquence. Ce guide vise à servir les chercheurs ou les étudiants nouveaux à l'analyse phylogénétique.

Abstract

De nombreux chercheurs, dans des foyers incroyablement diversifiée, appliquent phylogénétique à leur question (s) de recherche. Cependant, de nombreux chercheurs sont de nouveau à ce sujet et il présente des problèmes inhérents. Ici, nous compilons une introduction pratique à la phylogénétique pour non-experts. Nous présentons de façon étape-par-étape, un pipeline pour générer phylogénies fiables de jeux de données de séquences de gènes. Nous commençons avec un guide utilisateur pour les outils de recherche de similarité via des interfaces en ligne ainsi que les exécutables locaux. Ensuite, nous explorons des programmes de génération de multiples alignements de séquences, suivi par des protocoles d'utilisation de logiciel pour déterminer les modèles les mieux adaptées de l'évolution. Nous décrivons ensuite les protocoles pour reconstruire les relations phylogénétiques par maximum de vraisemblance et critères bayésiens et enfin décrire les outils de visualisation des arbres phylogénétiques. Si ce n'est pas par tous les moyens une description exhaustive des approches phylogénétiques, il fournit au lecteur pratique informat départions sur des applications logicielles clés couramment utilisés par les phylogénéticiens. La vision de cet article serait qu'il puisse servir comme un outil de formation pratique pour les chercheurs qui entreprennent des études phylogénétiques et aussi servir comme une ressource éducative qui pourrait être incorporé dans une salle de classe ou un enseignement de laboratoire.

Introduction

Afin de comprendre comment deux (ou plusieurs) espèces ont évolué, il est d'abord nécessaire d'obtenir la séquence ou données morphologiques de chaque échantillon; ces données représentent des quantités que nous pouvons utiliser pour mesurer leur relation dans l'espace évolutif. Tout comme lors de la mesure la distance linéaire, ayant plus de données disponibles (par exemple, mille pouces, microns) seront équivaudrait à une mesure plus précise. Ergo, la précision avec laquelle un chercheur peut en déduire la distance évolutive est fortement influencé par le volume de données d'information disponibles pour mesurer les relations. En outre, parce que les différents échantillons évoluent à des rythmes différents et par des mécanismes différents, la méthode que nous utilisons pour mesurer la relation entre deux taxons influence aussi directement la précision des mesures de l'évolution. Par conséquent, parce que les relations évolutionnaires ne sont pas observés directement mais sont extrapolées à partir de séquence ou des données morphologiques, le problème consistant à déduire l'évolutionrelations devient l'une des statistiques. Phylogénétique est la branche de la biologie concernés par l'application de modèles statistiques à des modèles d'évolution afin de reconstruire l'histoire évolutive de manière optimale entre les taxons. Cette reconstruction entre taxons est considéré comme la phylogénie de taxons.

Pour aider à combler l'écart en matière d'expertise entre les biologistes moléculaires et les biologistes évolutionnaires que nous décrivons ici une étape par étape de pipeline pour inférer des phylogénies à partir d'un ensemble de séquences. Tout d'abord, nous détaillons les étapes interrogation de base de données à l'aide du Local Alignment Search Tool base (BLAST 1) algorithme par l'interface web et également en utilisant des exécutables locaux, ce qui est souvent la première étape dans l'obtention d'une liste de séquences similaires à un inconnu requête, bien que certains chercheurs peuvent également être intéressé par la collecte de données pour un seul groupe via des interfaces Web comme Phylota (http://www.phylota.net/). BLAST est un algorithme de cOMPARAISON primaire d'acides aminés ou des données de séquence nucléotidique à l'encontre d'une base de données pour rechercher des séquences "hits" qui ressemblent à la séquence de requête. Le programme BLAST a été conçu par Stephen Altschul et al. au National Institutes of Health (NIH) 1. Le serveur BLAST se compose d'un certain nombre de programmes, et voici une liste de quelques-uns des programmes les plus communs BLAST:

i) Nucleotide-nucleotide BLAST (blastn): Ce programme nécessite une entrée de séquence d'ADN et retourne séquences d'ADN les plus proches de la base de données d'ADN que l'utilisateur précise (par exemple pour un organisme spécifique).

ii) la protéine-protéine BLAST (blastp): l'utilisateur saisit ici une séquence de protéine et le programme retourne les séquences protéiques les plus similaires à partir de la base de données de protéines que l'utilisateur spécifie.

iii) BLAST itératif position spécifique (PSI-BLAST) (blastpgp): L'entrée de l'utilisateur est un protedans l'ordre qui renvoie un ensemble de protéines étroitement liées, et de cet ensemble de données un profil conservée est généré. Suivant une nouvelle requête est générée en utilisant uniquement ces "motifs" conservées qui sont utilisées pour interroger une base de données de protéines et cela renvoie un plus grand groupe de protéines à partir de laquelle une nouvelle série de "motifs" conservées sont extraits et ensuite utilisé pour interroger une base de données de protéines jusqu'à ce que un nombre encore plus important de protéines sont réglées de nouveau et un autre profil est généré et le processus est répété. En incluant des protéines apparentées à la demande de recherche dans chacune des étapes de ce programme permet à l'utilisateur d'identifier des séquences qui sont plus divergentes.

iv) Nucleotide 6-trame de traduction protéique (blastx): Ici, l'utilisateur fournit une entrée de séquence de nucléotide qui est transformé en les six cadres des produits de traduction conceptuels (à savoir les deux brins) contre une base de données de séquences de protéines..

v) de nucléotides 6-cadre traduction nucléotidesTraduction 6-cadre (tblastx): Ce programme prend une entrée de séquence nucléotidique de l'ADN et traduit l'entrée dans tous les six cadres conceptuels produits de traduction qu'il compare contre les traductions d'une base de données de la séquence nucléotidique six cadres.

vi) 6-trame traduction de protéine-nucléotide (tblastn): Ce programme utilise une entrée de séquence de protéine pour la comparer à l'ensemble des six cadres de lecture d'une base de données de séquences nucléotidiques.

Ensuite, nous décrivons les programmes couramment utilisés pour produire un alignement de séquence multiple (MSA) à partir d'un ensemble de données de séquence, et il est suivi par un mode d'emploi pour des programmes qui déterminent les modèles les mieux adaptées de l'évolution d'un ensemble de données de séquence. Reconstruction phylogénétique est un problème statistique, et de ce fait, les méthodes phylogénétiques ont besoin d'intégrer un cadre statistique. Ce cadre statistique devient un modèle évolutif qui intègre le changement de séquence dans l'ensemble de données. Cette évolution model est composé d'un ensemble d'hypothèses sur le processus de nucléotides ou d'acides aminés substitutions, et le meilleur modèle pour un ensemble de données particulier peut être sélectionnée au moyen de tests statistiques. L'ajustement aux données de modèles différents peuvent être comparés par des tests du rapport de vraisemblance (LRT) ou des critères d'information pour sélectionner le meilleur modèle dans un ensemble de possibles. Deux critères communs d'information sont les informations critère Akaike (AIC) 2 et le critère d'information bayésien (BIC) 3. Une fois un alignement optimal est généré, il existe de nombreuses méthodes différentes pour créer une phylogénie des données alignées. Il existe de nombreuses méthodes de déduire les relations évolutives; généralement, ils peuvent être divisés en deux catégories: les méthodes fondées sur la distance et méthodes basés sur les séquences. Méthodes fondées sur la distance calculent les distances paires de séquences, puis utilisent ces distances pour obtenir l'arbre. Méthodes basés sur les séquences utilisent l'alignement de séquences directement, et la recherche en général le tree espace en utilisant un critère d'optimalité. Nous présentons deux méthodes basés sur les séquences pour reconstruire les relations phylogénétiques: ce sont PhyML 4 qui met en œuvre le cadre du maximum de vraisemblance, et MrBayes 5 qui utilise bayésienne Markov Chain Monte Carlo inférence. Probabilité et méthodes bayésiennes offrent un cadre statistique pour la reconstruction phylogénétique. En fournissant des informations de l'utilisateur sur les outils de renforcement des arbres couramment utilisés, nous introduisons le lecteur aux données nécessaires pour déduire les relations phylogénétiques.

Protocol

Une. Local Alignment Search Tool base (BLAST): Interface en ligne Cliquez sur ce lien pour visiter le serveur BLAST 1 Web du Centre national d'information sur la biotechnologie (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figure 1). Entrée une séquence FASTA format de texte (voir la figure 2 par exemple) dans la boîte de recherche. Cliquez sur le programme BLAST approprié et bas…

Representative Results

Trouver des similitudes avec une requête permet aux chercheurs de attribuent une identité potentielle de nouvelles séquences et également déduire les relations entre les séquences. Le type d'entrée de fichier pour BLAST est une séquence de texte formaté FASTA ou numéro d'accession GenBank. Séquence FASTA formaté commence avec une ligne de description indiquée par un signe «>» (figure 2). La description doit suivre immédiatement après le signe ">", la s…

Discussion

Notre espoir pour cet article, c'est qu'il servira de point de départ pour guider les chercheurs ou les étudiants qui sont nouveaux pour la phylogénétique. projets de séquençage du génome sont devenus moins coûteux au cours des dernières années et, en conséquence la demande des utilisateurs de cette technologie est de plus en plus, et maintenant la production de grands ensembles de données de séquence est monnaie courante dans les petits laboratoires. Ces ensembles de données sont souvent des cherc…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Nous remercions les membres du laboratoire O'Halloran des commentaires sur le manuscrit. Nous remercions le ministère de l'Université George Washington des sciences biologiques et Columbian College of Arts and Sciences pour le financement de D. O'Halloran.

Referenzen

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/de/50975?article_type=t

Play Video

Diesen Artikel zitieren
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video