Summary

Trois méthodes d’analyse d’expression différentielle pour le séquençage de l’ARN : limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Un protocole détaillé des méthodes d’analyse de l’expression différentielle pour le séquençage de l’ARN a été fourni : limma, EdgeR, DESeq2.

Abstract

Le séquençage de l’ARN (RNA-seq) est l’une des technologies les plus largement utilisées en transcriptomique car il peut révéler la relation entre l’altération génétique et les processus biologiques complexes et a une grande valeur dans le diagnostic, le pronostic et la thérapeutique des tumeurs. L’analyse différentielle des données ARN-seq est cruciale pour identifier les transcriptions aberrantes, et limma, EdgeR et DESeq2 sont des outils efficaces pour l’analyse différentielle. Cependant, l’analyse différentielle ARN-seq nécessite certaines compétences avec le langage R et la capacité de choisir une méthode appropriée, ce qui fait défaut dans le programme d’enseignement médical.

Ici, nous fournissons le protocole détaillé pour identifier les gènes exprimés différentiellement (DEG) entre le cholangiocarcinome (CHOL) et les tissus normaux à travers limma, DESeq2 et EdgeR, respectivement, et les résultats sont présentés dans des diagrammes de volcan et des diagrammes de Venn. Les trois protocoles limma, DESeq2 et EdgeR sont similaires mais ont des étapes différentes parmi les processus de l’analyse. Par exemple, un modèle linéaire est utilisé pour les statistiques en limma, tandis que la distribution binomiale négative est utilisée dans edgeR et DESeq2. De plus, les données normalisées de comptage ARN-seq sont nécessaires pour EdgeR et limma, mais ne sont pas nécessaires pour DESeq2.

Ici, nous fournissons un protocole détaillé pour trois méthodes d’analyse différentielle: limma, EdgeR et DESeq2. Les résultats des trois méthodes se chevauchent en partie. Les trois méthodes ont leurs propres avantages, et le choix de la méthode ne dépend que des données.

Introduction

Le séquençage de l’ARN (séquençage de l’ARN) est l’une des technologies les plus largement utilisées en transcriptomique avec de nombreux avantages (par exemple, une reproductibilité élevée des données), et a considérablement augmenté notre compréhension des fonctions et de la dynamique des processus biologiques complexes1,2. L’identification des transcriptions d’aberrate dans différents contextes biologiques, également connus sous le nom de gènes exprimés différentiellement (DEG), est une étape clé de l’analyse de l’ARN.seq. RNA-seq permet d’obtenir une compréhension approfondie des mécanismes moléculaires et des fonctions biologiques liés à la pathogenèse. Par conséquent, l’analyse différentielle a été considérée comme précieuse pour le diagnostic, le pronostic et la thérapeutique des tumeurs3,4,5. Actuellement, d’autres progiciels R/Bioconductor open source ont été développés pour l’analyse de l’expression différentielle ARN-seq, en particulier limma, DESeq2 et EdgeR1,6,7. Cependant, l’analyse différentielle nécessite certaines compétences avec le langage R et la capacité de choisir la méthode appropriée, ce qui fait défaut dans le programme d’études médicales.

Dans ce protocole, basé sur les données de comptage de l’ARN-seq du cholangiocarcinome (CHOL) extraites de l’Atlas du génome du cancer (TCGA), trois des méthodes les plus connues (limma8,EdgeR9 et DESeq210)ont été réalisées, respectivement, par le programme R11 pour identifier les DEG entre le CHOL et les tissus normaux. Les trois protocoles limma, EdgeR et DESeq2 sont similaires mais ont des étapes différentes parmi les processus de l’analyse. Par exemple, les données normalisées de comptage ARN-seq sont nécessaires pour EdgeR et limma8,9, tandis que DESeq2 utilise ses propres divergences de bibliothèque pour corriger les données au lieu de la normalisation10. En outre, edgeR est spécifiquement adapté aux données de type ARN-seq, tandis que le limma est utilisé pour les microréseaux et les références d’ARN. Un modèle linéaire est adopté par limma pour évaluer les DEG12, tandis que les statistiques dans edgeR sont basées sur les distributions binomiales négatives, y compris l’estimation empirique de Bayes, les tests exacts, les modèles linéaires généralisés et les tests de quasi-vraisemblance9.

En résumé, nous fournissons les protocoles détaillés de l’analyse de l’expression différentielle ARN-seq en utilisant limma, DESeq2 et EdgeR, respectivement. En se référant à cet article, les utilisateurs peuvent facilement effectuer l’analyse différentielle ARN-seq et choisir les méthodes d’analyse différentielle appropriées pour leurs données.

Protocol

REMARQUE: Ouvrez le programme R-studio et chargez le fichier R « DEGs.R », le fichier peut être acquis à partir de fichiers / scripts supplémentaires. 1. Téléchargement et prétraitement des données Téléchargez les données de comptage du séquençage à haut débit (HTSeq) du cholangiocarcinome (CHOL) à partir de l’Atlas du génome du cancer (TCGA). Cette étape peut être facilement réalisée par le code R suivant. Cliquez sur Exécuter pour…

Representative Results

Il existe différentes approches pour visualiser le résultat de l’analyse de l’expression différentielle, parmi lesquelles le diagramme du volcan et le diagramme de Venn sont particulièrement utilisés. limma a identifié 3323 DEG entre le CHOL et les tissus normaux avec les |logFC|≥2 et adj. P.Val <0,05 comme seuils, parmi lesquels 1880 ont été régulés à la baisse dans les tissus CHOL et 1443 ont été régulés à la hausse(Figure 1a). Pendant ce temps, edgeR a identifié les…

Discussion

Les transcriptions aberrate abondantes dans les cancers peuvent être facilement identifiées par l’analyse différentielle ARN-seq5. Cependant, l’application de l’analyse de l’expression différentielle ARN-seq est souvent limitée car elle nécessite certaines compétences avec le langage R et la capacité de choisir des méthodes appropriées. Pour résoudre ce problème, nous fournissons une introduction détaillée aux trois méthodes les plus connues (limma, EdgeR et DESeq2) et des t…

Declarações

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par la National Natural Science Foundation of China (subvention n° 81860276) et les principaux projets du Fonds spécial du programme national clé de R&D (subvention n° 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

Referências

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/pt/62528?article_type=t

Play Video

Citar este artigo
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video