Summary

Tres métodos de análisis de expresión diferencial para la secuenciación de ARN: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Se proporcionó un protocolo detallado de métodos de análisis de expresión diferencial para la secuenciación de ARN: limma, EdgeR, DESeq2.

Abstract

La secuenciación de ARN (RNA-seq) es una de las tecnologías más utilizadas en transcriptómica, ya que puede revelar la relación entre la alteración genética y los procesos biológicos complejos y tiene un gran valor en el diagnóstico, pronóstico y terapéutica de tumores. El análisis diferencial de los datos de RNA-seq es crucial para identificar transcripciones aberrantes, y limma, EdgeR y DESeq2 son herramientas eficientes para el análisis diferencial. Sin embargo, el análisis diferencial RNA-seq requiere ciertas habilidades con el lenguaje R y la capacidad de elegir un método apropiado, que falta en el currículo de la educación médica.

Aquí, proporcionamos el protocolo detallado para identificar genes expresados diferencialmente (DEG) entre el colangiocarcinoma (CHOL) y los tejidos normales a través de limma, DESeq2 y EdgeR, respectivamente, y los resultados se muestran en gráficos de volcanes y diagramas de Venn. Los tres protocolos de limma, DESeq2 y EdgeR son similares pero tienen diferentes pasos entre los procesos del análisis. Por ejemplo, se utiliza un modelo lineal para la estadística en limma, mientras que la distribución binomial negativa se utiliza en edgeR y DESeq2. Además, los datos de recuento normalizado de RNA-seq son necesarios para EdgeR y limma, pero no son necesarios para DESeq2.

Aquí, proporcionamos un protocolo detallado para tres métodos de análisis diferencial: limma, EdgeR y DESeq2. Los resultados de los tres métodos se superponen en parte. Los tres métodos tienen sus propias ventajas, y la elección del método solo depende de los datos.

Introduction

La secuenciación de ARN (RNA-seq) es una de las tecnologías más utilizadas en transcriptómica con muchas ventajas (por ejemplo, alta reproducibilidad de datos), y ha aumentado drásticamente nuestra comprensión de las funciones y dinámicas de procesos biológicos complejos1,2. La identificación de transcripciones aberrantes bajo diferentes contextos biológicos, que también se conocen como genes expresados diferencialmente (DEG), es un paso clave en el análisis de ARN-seq. RNA-seq permite obtener una comprensión profunda de los mecanismos moleculares relacionados con la patogénesis y las funciones biológicas. Por lo tanto, el análisis diferencial ha sido considerado como valioso para el diagnóstico, pronóstico y terapéutica de tumores3,4,5. Actualmente, se han desarrollado más paquetes R/Bioconductor de código abierto para el análisis de expresión diferencial RNA-seq, particularmente limma, DESeq2 y EdgeR1,6,7. Sin embargo, el análisis diferencial requiere ciertas habilidades con el lenguaje R y la capacidad de elegir el método apropiado, que falta en el plan de estudios de la educación médica.

En este protocolo, basado en los datos de conteo de ARN-seq de colangiocarcinoma (CHOL) extraídos del Atlas del Genoma del Cáncer (TCGA), se llevaron a cabo tres de los métodos más conocidos (limma8,EdgeR9 y DESeq210),respectivamente, por el programa R11 para identificar los DEG entre CHOL y tejidos normales. Los tres protocolos de limma, EdgeR y DESeq2 son similares pero tienen diferentes pasos entre los procesos del análisis. Por ejemplo, los datos de recuento normalizado de RNA-seq son necesarios para EdgeR y limma8,9, mientras que DESeq2 utiliza sus propias discrepancias de biblioteca para corregir datos en lugar de la normalización10. Además, edgeR es específicamente adecuado para datos de RNA-seq, mientras que el limma se utiliza para microarrays y RNA-seq. Limma adopta un modelo lineal para evaluar los DEGs12,mientras que las estadísticas en edgeR se basan en las distribuciones binomiales negativas, incluyendo estimación empírica de Bayes, pruebas exactas, modelos lineales generalizados y pruebas de cuasi-verosimilitud9.

En resumen, proporcionamos los protocolos detallados de análisis de expresión diferencial RNA-seq mediante el uso de limma, DESeq2 y EdgeR, respectivamente. Al consultar este artículo, los usuarios pueden realizar fácilmente el análisis diferencial RNA-seq y elegir los métodos de análisis diferencial apropiados para sus datos.

Protocol

NOTA: Abra el programa R-studio y cargue el archivo R “DEGs.R”, el archivo se puede adquirir desde Archivos suplementarios / Scripts. 1. Descarga y preprocesamiento de datos Descargue los datos de recuento de secuenciación de alto rendimiento (HTSeq) de colangiocarcinoma (CHOL) del Atlas del Genoma del Cáncer (TCGA). Este paso se puede lograr fácilmente con el siguiente código R. Haga clic en Ejecutar para instalar paquetes de R. Haga clic en <…

Representative Results

Existen diversos enfoques para visualizar el resultado del análisis de expresión diferencial, entre los que se utilizan particularmente la gráfica del volcán y el diagrama de Venn. limma identificó 3323 DEGs entre el CHOL y los tejidos normales con el |logFC|≥2 y adj. P.Val <0,05 como umbrales, entre los cuales 1880 fueron regulados a la baja en los tejidos CHOL y 1443 fueron regulados al pie(Figura 1a). Mientras tanto, edgeR identificó los 1578 DEG regulados a la baja y 3121 DEG reg…

Discussion

Las abundantes transcripciones aberrantes en los cánceres se pueden identificar fácilmente mediante el análisis diferencial de ARN-seq5. Sin embargo, la aplicación del análisis de expresión diferencial RNA-seq a menudo está restringida, ya que requiere ciertas habilidades con el lenguaje R y la capacidad de elegir métodos apropiados. Para abordar este problema, proporcionamos una introducción detallada a los tres métodos más conocidos (limma, EdgeR y DESeq2) y tutoriales para aplicar el…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabajo fue apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvención No. 81860276) y los Proyectos clave del Fondo Especial del Programa Nacional de I + D Clave (Subvención No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video