Summary

Una guía práctica para Phylogenetics para no expertos

Published: February 05, 2014
doi:

Summary

Aquí se describe una tubería de paso a paso para generar filogenias confiables desde el nucleótido o secuencia de aminoácidos conjuntos de datos. Esta guía tiene como objetivo servir a los investigadores o estudiantes nuevos para el análisis filogenético.

Abstract

Muchos investigadores, a través de muy diversa focos, están aplicando la filogenética a su pregunta (s) de investigación. Sin embargo, muchos investigadores son nuevos en este tema y por lo que presenta problemas inherentes. Aquí compilamos una introducción práctica a la filogenética para los no expertos. Nos planteamos de una manera paso a paso, una tubería para generar filogenias confiables de los conjuntos de datos de secuencias de genes. Comenzamos con una guía de usuario para las herramientas de búsqueda de similitud a través de interfaces en línea, así como ejecutables locales. A continuación, exploramos los programas para la generación de múltiples alineamientos de secuencias seguidas de protocolos para el uso de software para determinar los modelos de mejor ajuste de la evolución. A continuación, describimos protocolos para la reconstrucción de relaciones filogenéticas a través de máxima verosimilitud y criterios bayesianas y, finalmente, describe herramientas para la visualización de los árboles filogenéticos. Si bien esto no es de ninguna manera una descripción exhaustiva de los estudios filogenéticos, proporciona al lector con informat comenzando prácticaiones en las aplicaciones de software clave comúnmente utilizados por filogenetistas. La visión de este artículo sería que podría servir como una herramienta de formación práctica para los investigadores que emprenden estudios filogenéticos y también sirven como un recurso educativo que se podrían incorporar en un salón de clases o la enseñanza-lab.

Introduction

Con el fin de entender cómo evolucionaron dos (o más) especies, es necesario primero obtener la secuencia o los datos morfológicos de cada muestra, estos datos representan cantidades que podemos utilizar para medir su relación a través del espacio evolutivo. Al igual que en la medición de distancia lineal, tener más datos disponibles (por ejemplo, millas, pulgadas, micras) equivaldrán a una medición más precisa. Ergo, la precisión con la que un investigador puede deducir la distancia evolutiva está fuertemente influenciado por el volumen de datos informativos disponibles para medir las relaciones. Además, debido a que diferentes muestras evolucionan a diferentes velocidades y por diferentes mecanismos, el método que se utiliza para medir la relación entre dos taxones también influye directamente en la precisión de las mediciones evolutivos. Por lo tanto, debido a las relaciones evolutivas no se observan directamente, sino que en lugar se extrapolan de secuencia o los datos morfológicos, el problema de inferir evolutivarelaciones se convierte en una de las estadísticas. Phylogenetics es la rama de la biología que se trate con la aplicación de modelos estadísticos para los patrones de evolución con el fin de reconstruir de manera óptima la historia evolutiva entre los taxones. Esta reconstrucción entre los taxones que se conoce como la filogenia de los taxones.

Para ayudar a cerrar la brecha de conocimientos entre los biólogos moleculares y los biólogos evolutivos que describimos aquí un paso a paso de tuberías para inferir filogenias a partir de un conjunto de secuencias. En primer lugar, se detallan los pasos a seguir en la interrogación de bases de datos utilizando el Basic Local Alignment Search Tool (BLAST 1) algoritmo a través de la interfaz basada en la web y también mediante el uso de archivos ejecutables locales, lo que es a menudo el primer paso para obtener una lista de secuencias similares a una no identificada consulta, aunque algunos investigadores también pueden estar interesados ​​en la recopilación de datos para un solo grupo a través de interfaces web como Phylota (http://www.phylota.net/). BLAST es un algoritmo para Comparing primaria de aminoácidos o de datos de secuencias de nucleótidos contra una base de datos de secuencias para buscar "hits" que se asemejan a la secuencia problema. El programa BLAST fue diseñado por Stephen Altschul et al. en los Institutos Nacionales de Salud (NIH) 1. El servidor de BLAST consiste en una serie de programas diferentes, y aquí está una lista de algunos de los programas BLAST más comunes:

i) BLAST de nucleótidos del nucleótido (blastn): Este programa requiere una entrada de secuencia de ADN y devuelve las secuencias de ADN más similares a partir de la base de datos de ADN que especifica el usuario (por ejemplo, para un organismo específico).

ii) BLAST-proteína-proteína (BLASTP): Aquí el usuario introduce una secuencia de la proteína y el programa vuelve las secuencias de proteína más similares a partir de la base de datos de proteínas que el usuario especifica.

iii) BLAST iterativo-posición específica (PSI-BLAST) (blastpgp): La entrada del usuario es una proteen la secuencia que devuelve un conjunto de proteínas estrechamente relacionadas, ya partir de esta base de datos se genera un perfil conservado. A continuación, una nueva consulta se genera utilizando sólo estos "motivos" conservados que se utiliza para interrogar a una base de datos de proteínas y esto devuelve un grupo mayor de proteínas a partir de los cuales se extraen de un nuevo conjunto de "motivos" conservados y luego se usa para interrogar a una base de datos de proteínas hasta un conjunto aún mayor de proteínas vuelven a sintonizarse y se genera otro perfil y se repite el proceso. Mediante la inclusión de proteínas relacionadas en la consulta en cada paso de este programa permite al usuario identificar secuencias que son más divergentes.

iv) nucleótidos traducción de la proteína 6-marco (BLASTX): Aquí el usuario proporciona una entrada de secuencia de nucleótidos que se convierte en los productos de traducción conceptual de seis marcos (es decir, ambas cadenas) contra una base de datos de secuencias de proteínas..

v) Nucleótido 6-bastidor de traslación-nucleótidoTraducción 6-marco (TBLASTX): Este programa toma una secuencia de nucleótidos de ADN de entrada y traduce la entrada en todos los productos de traducción conceptual de seis marcos que se compara contra las traducciones de seis marcos de una base de datos de secuencia de nucleótidos.

vi) La proteína-nucleótido traducción 6-frame (tblastn): Este programa utiliza una entrada de secuencia de proteínas con el que comparar los seis marcos de lectura de una base de datos de secuencias de nucleótidos.

A continuación se describen los programas más utilizados para generar una alineación de secuencias múltiples (MSA) de un conjunto de datos de secuencias, y esto es seguido por una guía de usuario para programas que determinan los modelos de mejor ajuste de la evolución de un conjunto de datos de secuencias. La reconstrucción filogenética es un problema estadístico, y debido a esto, los métodos filogenéticos necesidad de incorporar un marco estadístico. Este marco estadístico se convierte en un modelo evolutivo que incorpora el cambio de secuencia en el conjunto de datos. Este mo evolutivodel se compone de un conjunto de hipótesis sobre el proceso de nucleótidos o amino-ácidos sustituciones, y el modelo de mejor ajuste para un determinado conjunto de datos se puede seleccionar a través de pruebas estadísticas. El ajuste de los datos de los diferentes modelos se pueden comparar a través de pruebas de coeficiente de riesgo (LRTs) o criterios de información para seleccionar el modelo que mejor se ajusta dentro de un conjunto de posibles. Dos criterios de información comunes son el criterio de información de Akaike (AIC) 2 y el criterio de información bayesiano (BIC) 3. Una vez que se genera un alineamiento óptimo, hay muchos métodos diferentes para crear una filogenia de los datos alineados. Hay numerosos métodos de inferir relaciones evolutivas; en términos generales, que se pueden dividir en dos categorías: métodos basados ​​en la distancia y métodos basados ​​en la secuencia. Métodos basados ​​en la distancia calculan distancias por parejas de secuencias y, a continuación, utilizar estas distancias para obtener el árbol. Métodos Secuencia basada utilizan la secuencia de alineación directa, y por lo general buscar en la tespacio ree utilizando un criterio de optimalidad. Planteamos dos métodos basados ​​en la secuencia para la reconstrucción de las relaciones filogenéticas: son PhyML 4 que implementa el marco de máxima verosimilitud, y MrBayes 5 que utiliza bayesiano Markov Chain Monte Carlo inferencia. Verosimilitud y métodos bayesianos ofrecen un marco estadístico para la reconstrucción filogenética. Al proporcionar la información del usuario en las herramientas de creación de árboles de uso común, se introduce al lector a los datos necesarios para inferir las relaciones filogenéticas.

Protocol

1. Basic Local Alignment Search Tool (BLAST): Interfaz de línea Haga clic en este enlace para visitar el BLAST 1 servidor web en el Centro Nacional de Información Biotecnológica (NCBI). – http://blast.ncbi.nlm.nih.gov/Blast.cgi (Figura 1). Introduzca una secuencia de texto con formato FASTA (véase la figura 2, por ejemplo) en el cuadro de consulta. Haga clic en el programa BLAST apropiado…

Representative Results

Encontrar similitudes a una consulta permite a los investigadores atribuyen una identidad potencial de nuevas secuencias y también inferir relaciones entre secuencias. El tipo de entrada de archivo para BLAST FASTA 1 es la secuencia de texto con formato o número de acceso GenBank. Secuencia FASTA formato comienza con una línea de descripción se indica por un signo ">" (Figura 2). La descripción debe seguir inmediatamente después del signo ">", la secuencia …

Discussion

Nuestra esperanza para este artículo es que sirva como punto de partida para guiar a los investigadores o estudiantes que son nuevos en la filogenética. Proyectos de secuenciación del genoma han vuelto menos costosos en los últimos años y como consecuencia de la demanda de los usuarios de esta tecnología es cada vez mayor, y ahora la producción de grandes conjuntos de datos de secuencias es un lugar común en pequeños laboratorios. Estos conjuntos de datos proporcionan a menudo los investigadores con conjuntos d…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Damos las gracias a los miembros del laboratorio O'Halloran para comentarios sobre el manuscrito. Damos las gracias a El Departamento de la Universidad George Washington de Ciencias Biológicas y Columbian Facultad de Artes y Ciencias de la financiación para D. O'Halloran.

Referenzen

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign–an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).
check_url/de/50975?article_type=t

Play Video

Diesen Artikel zitieren
O’Halloran, D. A Practical Guide to Phylogenetics for Nonexperts. J. Vis. Exp. (84), e50975, doi:10.3791/50975 (2014).

View Video