Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project

Francis R. G. Amrit; Arjumand Ghazi

doi:10.3791/55473

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetica

Análisis de transcriptómica C. elegans ARN secuencia de datos a través de la suite smoking en el Proyecto Galaxy

Published: April 08, 2017

doi:

10.3791/55473

Francis R. G. Amrit, Arjumand Ghazi

¹Department of Pediatrics,University of Pittsburgh School of Medicine, Children’s Hospital of Pittsburgh

Summary

Galaxy y David se han convertido en herramientas populares que permiten a los investigadores sin formación bioinformática para analizar e interpretar los datos de RNA-Seq. Se describe un protocolo para C. elegans los investigadores realizar RNA-Seq experimentos, acceder y procesar el conjunto de datos usando Galaxy y obtener información biológica significativa de las listas de genes usando DAVID.

Abstract

generación de secuenciación de próxima (NGS) tecnologías han revolucionado la naturaleza de la investigación biológica. De estos, RNA Sequencing (RNA-Seq) ha surgido como una poderosa herramienta para el análisis de expresión génica y mapeo transcriptoma. Sin embargo, el manejo de bases de datos de RNA-Seq requiere experiencia computacional sofisticado y plantea retos inherentes para investigadores de la biología. Este cuello de botella ha sido mitigada por el proyecto de acceso abierto Galaxy que permite a los usuarios sin conocimientos de bioinformática para analizar los datos de RNA-Seq, y la base de datos para la anotación, visualización, y Integrado de Discovery (DAVID), una ontología de genes (GO) Suite término análisis que ayuda entender el significado biológico de grandes conjuntos de datos. Sin embargo, para los usuarios de primera vez y los aficionados bioinformática, el autoaprendizaje y la familiarización con estas plataformas puede llevar mucho tiempo y difícil. Se describe un flujo de trabajo sencillo que ayudará a C. elegans investigadores aislar ARN de gusano, llevar a cabo un experimento de RNA-Seqy analizar los datos utilizando plataformas Galaxy y David. Este protocolo proporciona instrucciones paso a paso para el uso de los diversos módulos Galaxy para acceder a los datos en bruto NGS, controles de calidad, la alineación y análisis de la expresión génica diferencial, guiando al usuario con los parámetros en cada paso para generar una lista de genes que se pueden cribar para el enriquecimiento de clases de genes o procesos biológicos utilizando DAVID. En general, esperamos que este artículo se proporcionará información a los investigadores que realizan C. elegans experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.

Introduction

La primera secuenciación del genoma humano, lleva a cabo mediante el método de secuenciación de didesoxinucleótidos-Fred Sanger, tomó 10 años, y un costo estimado de US $ 3 billón ^{^1,} ^2. Sin embargo, en poco más de una década desde su creación, Next-Generation Sequencing Technology (NGS) ha hecho posible secuenciar el genoma humano completo en dos semanas y por US $ 1,000. NGS nuevos instrumentos que permiten velocidades cada vez mayores de la colección de secuenciación de datos con una eficiencia increíble, junto con fuertes reducciones en el costo, están revolucionando la biología moderna en formas inimaginables como proyectos de secuenciación del genoma están convirtiendo rápidamente en un lugar común. Además, estos desarrollos han galvanizado avances en muchas otras áreas tales como el análisis de expresión génica a través de RNA-Sequencing (RNA-Seq), el estudio de las modificaciones epigenéticas en todo el genoma, las interacciones ADN-proteína, y la detección de la diversidad microbiana en huéspedes humanos. NGS-basado RNA-Seq en particular, ha hecho que sea posible identificar y transcriptomes mapa integral con precisión y sensibilidad, y ha sustituido a la tecnología de microarrays como el método de elección para los perfiles de expresión. Mientras que la tecnología de microarrays se ha utilizado ampliamente, que está limitado por su dependencia de las matrices de pre-existentes con la información genómica conocida, y otros inconvenientes tales como hibridación cruzada y la gama restringida de los cambios de expresión que se puede medir de forma fiable. RNA-seq, por otra parte, puede ser utilizado para detectar tanto las transcripciones conocidos y desconocidos, mientras que la producción de bajo nivel de ruido de fondo debido a su naturaleza inequívoca asignación de ADN. RNA-Seq, junto con las numerosas herramientas genéticas ofrecidas por organismos modelo tales como levaduras, moscas, gusanos, peces y ratones, ha servido de base para muchos descubrimientos biomédicos recientes importantes. Sin embargo, sigue habiendo retos importantes que hacen NGS inaccesibles para la comunidad científica en general, incluidas las limitaciones de almacenamiento, procesamiento y, sobre todo, m análisis bioinformática eaningful de grandes volúmenes de datos de secuenciación.

Los rápidos avances en las tecnologías de secuenciación y la acumulación exponencial de los datos han creado una gran necesidad de plataformas computacionales que permitan a los investigadores acceder, analizar y comprender esta información. Los primeros sistemas dependían en gran medida de los conocimientos de programación informática, mientras que, genoma navegadores tales como NCBI que permitieron a los no programadores para acceder y visualizar datos no permitió análisis sofisticados. La plataforma, de acceso libre basada en la web, Galaxy ( https://galaxyproject.org/ ), ha llenado este vacío y ha demostrado ser una tubería valiosa que permite a los investigadores para procesar datos de NGS y llevar a cabo una variedad de fácil de complejo análisis de la bioinformática. Galaxy se estableció inicialmente, y se mantiene, por los laboratorios de Anton Nekrutenko (Penn State University) y James Taylor (Universidad Johns Hopkins)f "> 3. El Galaxy ofrece una amplia gama de tareas de cómputo por lo que es una 'ventanilla única' para las necesidades de la bioinformática innumerables, incluyendo todos los pasos involucrados en un estudio de RNA-Seq. Itallows usuarios para realizar el procesamiento de datos, ya sea en sus servidores o localmente en sus propias máquinas. los datos y flujos de trabajo pueden ser reproducidos y compartidos. los tutoriales en línea, sección de ayuda, y una página-wiki ( https://wiki.galaxyproject.org/Support ) dedicada al Proyecto Galaxy proporcionan un apoyo constante. Sin embargo, para los usuarios de primera vez, especialmente aquellos que no tienen la formación bioinformática, la tubería puede parecer desalentador y el proceso de auto-aprendizaje y familiarización puede llevar mucho tiempo. Además, el sistema biológico estudiado, y los detalles del experimento y los métodos utilizados, el impacto las decisiones analíticas en varios pasos, y estos pueden ser difíciles de navegar sin instrucción.

El RN general A-Seq Galaxy de flujo de trabajo consiste en la carga de datos y verificación de la calidad seguido por análisis utilizando el Tuxedo Suite ^{^4,} ^{^5,} ^{^6,} ^{^7,} ^{^8,} ^9, que es un colectivo de varias herramientas requeridas para las diferentes etapas de análisis de datos RNA-Seq ^{^10,} ^{^11,} ^{^12,} ^{^13,} ^14. Un experimento típico RNA-Seq consiste en la parte experimental (preparación de la muestra, el aislamiento de ARNm y ADNc de preparación de la biblioteca), la NGS y el análisis de la bioinformática datos. Una visión general de estas secciones, y los pasos involucrados en la tubería Galaxy, se muestran en la Figura 1.

3fig1.jpg"/>
Figura 1: Visión general de un RNA-Seq Workflow. Ilustración de los pasos experimentales y computacionales que participan en un experimento RNA-Seq para comparar los perfiles de expresión génica de dos cepas de gusanos (A y B, líneas de color naranja y verde y flechas, respectivamente). Los diferentes módulos de Galaxy utilizado se muestran en recuadros con el paso correspondiente en el protocolo indicado en rojo. Las salidas de diversas operaciones están escritos en gris con los formatos de archivo que se muestran en azul. Haga clic aquí para ver una versión más grande de esta figura.

La primera herramienta en el Tuxedo Suite es un programa de alineación llamada 'Tophat'. Se descompone la entrada NGS lee en fragmentos más pequeños y luego los asigna a un genoma de referencia. Este proceso de dos pasos asegura que lee abarca regiones intrónicas cuya alineación puede ser de otro modo disrupted o perdidas se contabilizan y se asigna. Esto aumenta la cobertura y facilita la identificación de nuevas uniones de empalme. Salida Tophat se informa como dos archivos, un archivo de BED (con información sobre las uniones de corte y empalme que incluyen localización genómica) y un archivo de BAM (con detalles de mapeo de cada lectura). A continuación, el archivo de BAM se alinea contra un genoma de referencia para estimar la abundancia de las transcripciones individuales dentro de cada muestra con la función posterior en la Suite Tuxedo llamada 'Gemelos'. Gemelos funciones mediante el escaneo de la alineación reportar fragmentos de transcripción de longitud completa o 'transfrags' que abarcan todas las posibles variantes de empalme en los datos de entrada para cada gen. Basado en esto, se genera un 'transcriptoma' (montaje de todas las transcripciones generadas por gen para cada gen) para cada muestra que se secuenciaron. Estos conjuntos de mancuernas se colapsaron luego o se fusionaron junto con la referencia genoma para producir un único archivo de anotación para el análisis diferencial de aguas abajo usando la siguiente herramienta, 'Cuffmerge'. Por último, la expresión génica herramienta medidas diferencial la 'Cuffdiff' entre las muestras mediante la comparación de las salidas el sombrero de copa de cada una de las muestras para el archivo de salida Cuffmerge final (Figura 1). Gemelos utiliza FPKM / RPKM (Fragmentos / Lee por kilobase de transcripción por millón asignada lecturas) los valores reportar transcripción abundancias. Estos valores reflejan la normalización de los datos NGS primas para la profundidad (número promedio de lecturas de una muestra que se alinean con el genoma de referencia) y la longitud de genes (genes tener longitudes diferentes, por lo recuentos tienen que ser normalizado para la longitud de un gen para comparar los niveles entre los genes). FPKM y RPKM son esencialmente los mismos con RPKM ser utilizados para un solo extremo RNA-Seq donde cada lectura corresponde a un solo fragmento, mientras que, FPKM se utiliza para-Extremo emparejado RNA-Seq, ya que representa el hecho de que dos lecturas pueden corresponder al mismo fragmento. En última instancia, el resultado de estos análisis es una lista de genes expresados diferencialmente entre las condiciones y / o las cepas ensayadas.

Una vez que una carrera exitosa Galaxy se ha completado y se genera una 'lista de genes', el siguiente paso lógico requiere más análisis de la bioinformática para deducir conocimiento significativo de los conjuntos de datos. Muchos paquetes de software han surgido para atender a esta necesidad, incluyendo paquetes computacionales basados en web disponibles públicamente como David (la base de datos para la anotación, y Visualización Integrada Discovery) ^15. DAVID facilita la asignación de significado biológico a grandes listas de genes de alto rendimiento estudios comparando la lista de genes subido a su base de conocimiento biológico integrado y revelar las anotaciones biológicas asociadas con la lista de genes. Esto es seguido por análisis de enriquecimiento, es decir, las pruebas a identify si cualquier clase de proceso o gen biológico se excesivamente en la lista (s) de genes de una manera estadísticamente significativa. Se ha convertido en una opción popular debido a una combinación de una amplia, base de conocimiento integrado y algoritmos de análisis de gran alcance que permiten a los investigadores a detectar temas biológicos enriquecidos dentro de la genómica-deriva '' listas de genes ^{^10,} ^16. Las ventajas adicionales incluyen su capacidad para procesar las listas de genes creado en cualquier plataforma de secuenciación y una interfaz muy fácil de usar.

El nematodo Caenorhabditis elegans es un sistema modelo genético, bien conocida por sus muchas ventajas, tales como tamaño pequeño, cuerpo transparente, plan de cuerpo simple, facilidad de la cultura y gran susceptibilidad a la disección genética y molecular. Worms tienen un pequeño, simple y bien anotado genoma que incluye hasta un 40% de genes conservados con homólogos humanos conocidos ^17. De hecho, C. elegansfue la primera metazoan cuyo genoma fue secuenciado por completo ^18, y una de las primeras especies que se utilizó RNA-Seq para mapear transcriptoma de un organismo ^{^19,} ^20. Estudios gusano temprano involucrados experimentación con diferentes métodos para alto rendimiento de captura de RNA, la preparación de la biblioteca y la secuenciación, así como tuberías de bioinformática que contribuyeron al avance de la tecnología de ^{^21,} ^22. En los últimos años, la experimentación basada en ARN-Seq en los gusanos se ha convertido en un lugar común. Pero, para los biólogos del gusano tradicionales los retos que plantea el análisis computacional de los datos de RNA-Seq siguen siendo un obstáculo para una mayor y mejor utilización de la técnica.

En este artículo, se describe un protocolo para el uso de la plataforma Galaxy para analizar los datos de RNA-Seq alto rendimiento generados a partir de C. elegans. Para muchos por primera vez y de pequeña scaLe usuarios, la forma más rentable y sencillo para llevar a cabo un experimento de RNA-Seq es aislar ARN en el laboratorio y utilizar una instalación comercial NGS (o en casa) para la preparación de bibliotecas de ADNc de secuenciación y el propio NGS. Por lo tanto, hemos detallado primero las etapas implicadas en el aislamiento, la cuantificación y evaluación de la calidad de C. elegans muestras de ARN para la ARN-Seq. A continuación, se proporcionan instrucciones paso a paso para el uso de la interfaz de Galaxy para el análisis de los datos de NGS, comenzando con las pruebas de los controles de calidad post-secuenciación seguido de alineación, el montaje, y la cuantificación diferencial de la expresión génica. Además, hemos incluido direcciones para escudriñar los listas de genes resultantes de Galaxy para estudios de enriquecimiento biológicos utilizando DAVID. Como paso final en el flujo de trabajo, se proporcionan instrucciones para cargar los datos de RNA-Seq a los servidores públicos, tales como la secuencia de lectura del archivo (SRA) en el NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para que sea libremente accesible para la comunidad científica. En general, esperamos que este artículo se proporcionará información completa y suficiente para los biólogos del gusano que llevan a cabo experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.

Protocol

1. Aislamiento de ARN Medidas de precaución Limpie toda la superficie, instrumentos de trabajo y pipetas utilizando un spray RNasa disponible comercialmente para eliminar cualquier RNasas presente. Use guantes en todo momento, que cambia regularmente por otras nuevas durante las diferentes etapas del protocolo. Utilice sólo las puntas de filtro y mantener todas las muestras en hielo tanto como sea posible para evitar la degradación del ARN. NOTA: Para ob…

Representative Results

En C. elegans, la eliminación de las células madre de línea germinal (GSCS) se extiende la vida útil, mejora la resistencia al estrés, y eleva la grasa corporal 24, 28. Pérdida de GSCs, ya sea provocado por ablación por láser o por mutaciones, tales como GLP-1, provoca prolongación de la vida a través de la activación de una red de factores de transcripción 29. Uno de tales fa…

Discussion

Importancia de la plataforma de secuenciación Galaxy biología de hoy

El Proyecto Galaxy se ha convertido en fundamental para ayudar a los biólogos y sin la formación de bioinformática para procesar y analizar los datos de secuenciación de alto rendimiento de una manera rápida y eficiente. Una vez considerada una tarea hercúlea, esta plataforma accesible al público que ha hecho correr algoritmos bioinformáticos complejos para analizar los datos NGS un proceso sencillo, fiable y fácil….

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Los autores desean expresar su agradecimiento a los laboratorios, grupos e individuos que han desarrollado Galaxy y David, y por lo tanto hechas NGS ampliamente accesible para la comunidad científica. La ayuda y el asesoramiento brindado por sus colegas de la Universidad de Pittsburgh durante nuestra formación bioinformática es reconocido. Este trabajo fue apoyado por una Fundación Médica Ellison Nueva Académico en el envejecimiento premio (AG-NS-0879-12) y una subvención de los Institutos Nacionales de Salud (R01AG051659) a AG.

Materials

RNase spray	Fisher Scientific	21-402-178
Trizol	Ambion	15596026
Sonicator	Sonics Vibra Cell	VCX130
Centrifuge	Eppendorf	5415C
chloroform	Sigma Aldrich	288306
2-propanol	Fisher Scientific	A416P-4
Ethanol	Decon Labs	2705HC
RNase-free water	Fisher Scientific	BP561-1
Bioanalyzer	Agilent	G2940CA
Mac/PC

Riferimenti

Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

Análisis de transcriptómica<em> C</em>.<em> elegans</em> ARN secuencia de datos a través de la suite smoking en el Proyecto Galaxy

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

Análisis de transcriptómica<em> C</em>.<em> elegans</em> ARN secuencia de datos a través de la suite smoking en el Proyecto Galaxy

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below