Summary

Análisis de experimentos multifactoriales de RNA-Seq con DiCoExpress

Published: July 29, 2022
doi:

Summary

DiCoExpress es una herramienta basada en scripts implementada en R para realizar un análisis RNA-Seq desde el control de calidad hasta la coexpresión. DiCoExpress maneja un diseño completo y desequilibrado de hasta 2 factores biológicos. Este video tutorial guía al usuario a través de las diferentes características de DiCoExpress.

Abstract

El uso adecuado del modelado estadístico en el análisis de datos NGS requiere un nivel avanzado de experiencia. Recientemente ha habido un consenso creciente sobre el uso de modelos lineales generalizados para el análisis diferencial de datos RNA-Seq y la ventaja de los modelos de mezcla para realizar análisis de coexpresión. Para ofrecer un entorno administrado para usar estos enfoques de modelado, desarrollamos DiCoExpress que proporciona una canalización R estandarizada para realizar un análisis RNA-Seq. Sin ningún conocimiento particular en estadística o programación R, los principiantes pueden realizar un análisis completo de RNA-Seq desde controles de calidad hasta coexpresión a través de análisis diferencial basado en contrastes dentro de un modelo lineal generalizado. Se propone un análisis de enriquecimiento tanto en las listas de genes expresados diferencialmente como en los grupos de genes coexpresados. Este video tutorial está concebido como un protocolo paso a paso para ayudar a los usuarios a aprovechar al máximo DiCoExpress y su potencial para potenciar la interpretación biológica de un experimento RNA-Seq.

Introduction

La tecnología de secuenciación de ARN de próxima generación (RNA-Seq) es ahora el estándar de oro del análisis del transcriptoma1. Desde los primeros días de la tecnología, los esfuerzos combinados de bioinformáticos y bioestadísticos han dado como resultado el desarrollo de numerosos métodos que abordan todos los pasos esenciales de los análisis transcriptómicos, desde el mapeo hasta la cuantificación de la transcripción2. La mayoría de las herramientas disponibles hoy para el biólogo se desarrollan dentro del entorno de software R para computación estadística y gráficos3, y muchos paquetes para el análisis de datos biológicos están disponibles en el repositorio Bioconductor4. Estos paquetes ofrecen un control total y personalización del análisis, pero tienen el costo del uso extensivo de una interfaz de línea de comandos. Debido a que muchos biólogos se sienten más cómodos con un enfoque de “apuntar y hacer clic”5, la democratización de los análisis RNA-Seq requiere el desarrollo de interfaces o protocolos más fáciles de usar6. Por ejemplo, es posible construir interfaces web de paquetes de R usando Shiny7, y el análisis de datos de línea de comandos se hace más intuitivo con la interfaz de R-studio8 . El desarrollo de tutoriales dedicados paso a paso también puede ayudar al usuario novel. En particular, un video tutorial complementa uno de texto clásico, lo que lleva a una comprensión más profunda de todos los pasos del procedimiento.

Recientemente desarrollamos DiCoExpress9, una herramienta para analizar experimentos multifactoriales de RNA-Seq en R utilizando métodos considerados como los mejores basados en estudios de comparación neutral10,11,12. A partir de una tabla de recuento, DiCoExpress propone un paso de control de calidad de datos seguido de un análisis diferencial de expresión génica (paquete edgeR13) utilizando un modelo lineal generalizado (GLM) y la generación de grupos de coexpresión utilizando modelos de mezcla gaussiana (paquete coseq12). DiCoExpress maneja un diseño completo y desequilibrado de hasta 2 factores biológicos (es decir, genotipo y tratamiento) y un factor técnico (es decir, replicar). La originalidad de DiCoExpress radica en su arquitectura de directorios almacenando y organizando datos, scripts y resultados y en la automatización de la escritura de los contrastes permitiendo al usuario investigar numerosas preguntas dentro del mismo modelo estadístico. También se procuró proporcionar productos gráficos que ilustraran los resultados estadísticos.

El espacio de trabajo de DiCoExpress está disponible en https://forgemia.inra.fr/GNet/dicoexpress. Contiene cuatro directorios, dos pdf y dos archivos de texto. El directorio Data/ contiene los conjuntos de datos de entrada; Para este protocolo, usaremos el conjunto de datos “tutorial”. El directorio Sources/ contiene siete funciones R necesarias para realizar el análisis, y no debe ser modificado por el usuario. El análisis se ejecuta utilizando scripts almacenados en el directorio Template_scripts/. El que se utiliza en este protocolo se llama DiCoExpress_Tutorial_JoVE.R y se puede adaptar fácilmente a cualquier proyecto transcriptómico. Todos los resultados se escriben en el directorio Results/ y se almacenan en un subdirectorio nombrado según el proyecto. El archivo README.md contiene información útil sobre la instalación, y cualquier detalle específico relacionado con el método y su uso se puede encontrar en el archivo DiCoExpress_Reference_Manual.pdf.

Este video tutorial guía al usuario a través de las diferentes características de DiCoExpress con el objetivo de superar la reticencia que sienten los biólogos utilizando herramientas basadas en línea de comandos. Presentamos aquí el análisis de un conjunto de datos artificial RNA-Seq que describe la expresión génica en tres réplicas biológicas de cuatro genotipos, con o sin tratamiento. Ahora repasaremos los diferentes pasos del flujo de trabajo de DiCoExpress ilustrados en la Figura 1. El script descrito en la sección Protocolo y los archivos de entrada están disponibles en el sitio: https://forgemia.inra.fr/GNet/dicoexpress

Preparar archivos de datos
Los cuatro archivos csv almacenados en el directorio Data/ deben nombrarse de acuerdo con el nombre del proyecto. En nuestro ejemplo, todos los nombres, por lo tanto, comienzan con “Tutorial”, y estableceremos Project_Name = “Tutorial” en el Paso 4 del protocolo. El separador utilizado en los archivos csv debe indicarse en la variable Sep en el paso 4. En nuestro conjunto de datos “tutorial”, el separador es una tabulación. Para usuarios avanzados, el conjunto de datos completo se puede reducir a un subconjunto proporcionando una lista de instrucciones y un nuevo Project_Name a través de la variable Filter. Esta opción evita copias redundantes de los archivos de entrada y verifica los principios FAIR14.

Entre los cuatro archivos csv, solo los archivos COUNTS y TARGET son obligatorios. Contienen los recuentos brutos para cada gen (aquí Tutorial_COUNTS.csv) y la descripción del diseño experimental (aquí Tutorial_TARGET.csv). El archivo TARGET.csv describe cada muestra (una muestra por fila) con una modalidad para cada factor biológico o técnico (en las columnas). Recomendamos encarecidamente que los nombres elegidos para las modalidades comiencen con una letra, no con un número. El nombre de la última columna (“Replicar”) no se puede cambiar. Finalmente, los nombres de ejemplo (primera columna) deben coincidir con los nombres en los encabezados del archivo COUNTS.csv (Genotype1_control_rep1 en nuestro ejemplo). El archivo Enriquecimiento.csv en el que cada línea contiene un término de Gene_ID y uno de anotación sólo es necesario si el usuario planea ejecutar el análisis de enriquecimiento. Si un gen tiene varias anotaciones, tendrán que escribirse en diferentes líneas. El archivo Annotation.csv es opcional y se utiliza para agregar una breve descripción de cada gen en los archivos de salida. La mejor manera de obtener un archivo de anotación es recuperar la información de bases de datos dedicadas (por ejemplo, Thalemine: https://bar.utoronto.ca/thalemine/begin.do para Arabidopsis).

Instalación de DiCoExpress
DiCoExpress requiere paquetes R específicos. Utilice el código fuente de línea de comandos(“.. /Sources/Install_Packages.R”) en la consola de R para comprobar el estado de instalación del paquete requerido. Para los usuarios en Linux, otra solución es instalar el contenedor dedicado a DiCoExpress y disponible en https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Por definición, este contenedor contiene DiCoExpress con todas las partes necesarias, como bibliotecas y otras dependencias.

Protocol

1. DiCoExpress Abra una sesión de R Studio y establezca el directorio en Template_scripts. Abra el script DiCoExpress_Tutorial.R en R Studio. Cargue funciones DiCoExpress en la sesión de R con los siguientes comandos:> fuente(“.. /Fuentes/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /datos”> Results_Directory = “.. /Resultados/” Cargue archivos de datos en la sesión de R con los siguientes comandos:> Project_Name = “Tutorial”> Filter = NULL<…

Representative Results

Todas las salidas de DiCoExpress se guardan en el directorio Tutorial/, que a su vez se coloca dentro del directorio Results/. Proporcionamos aquí algunas orientaciones para evaluar la calidad general del análisis. Control de calidadLa salida del control de calidad, ubicada en el directorio Quality_Control/, es esencial para verificar que los resultados del análisis RNA-Seq sean confiables. El archivo Data_Quality_Control.pdf contiene varias gráficas obtenidas con dato…

Discussion

Debido a que RNA-Seq se ha convertido en un método omnipresente en los estudios biológicos, existe una necesidad constante de desarrollar herramientas analíticas versátiles y fáciles de usar. Un paso crítico dentro de la mayoría de los flujos de trabajo analíticos es a menudo identificar con confianza los genes expresados diferencialmente entre condiciones biológicas y/o tratamientos15. La producción de resultados confiables requiere un modelado estadístico adecuado, que ha sido la moti…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado principalmente por la ANR PSYCHE (ANR-16-CE20-0009). Los autores agradecen a F. Desprez por la construcción del contenedor de DiCoExpress. El trabajo de KB está respaldado por el programa Amaizing de Inversión para el Futuro ANR-10-BTBR-01-01. Los laboratorios GQE e IPS2 se benefician del apoyo de Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).
check_url/62566?article_type=t

Play Video

Cite This Article
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video