Summary

Tre metodi di analisi dell'espressione differenziale per il sequenziamento dell'RNA: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

È stato fornito un protocollo dettagliato di metodi di analisi dell’espressione differenziale per il sequenziamento dell’RNA: limma, EdgeR, DESeq2.

Abstract

Il sequenziamento dell’RNA (RNA-seq) è una delle tecnologie più utilizzate nella trascrittomica in quanto può rivelare la relazione tra l’alterazione genetica e processi biologici complessi e ha un grande valore nella diagnostica, nella prognostica e nella terapia dei tumori. L’analisi differenziale dei dati RNA-seq è fondamentale per identificare trascrizioni aberranti e limma, EdgeR e DESeq2 sono strumenti efficienti per l’analisi differenziale. Tuttavia, l’analisi differenziale RNA-seq richiede determinate abilità con il linguaggio R e la capacità di scegliere un metodo appropriato, che manca nel curriculum di educazione medica.

Qui forniamo il protocollo dettagliato per identificare i geni differenzialmente espressi (DEG) tra il colangiocarcinoma (CHOL) e i tessuti normali attraverso limma, DESeq2 e EdgeR, rispettivamente, e i risultati sono mostrati in grafici vulcanici e diagrammi di Venn. I tre protocolli di limma, DESeq2 e EdgeR sono simili ma hanno passaggi diversi tra i processi di analisi. Ad esempio, un modello lineare viene utilizzato per le statistiche in limma, mentre la distribuzione binomiale negativa viene utilizzata in edgeR e DESeq2. Inoltre, i dati normalizzati del conteggio RNA-seq sono necessari per EdgeR e limma, ma non sono necessari per DESeq2.

Qui forniamo un protocollo dettagliato per tre metodi di analisi differenziale: limma, EdgeR e DESeq2. I risultati dei tre metodi sono in parte sovrapposti. Tutti e tre i metodi hanno i loro vantaggi e la scelta del metodo dipende solo dai dati.

Introduction

Il sequenziamento dell’RNA (RNA-seq) è una delle tecnologie più utilizzate nella trascrittomica con molti vantaggi (ad esempio, un’elevata riproducibilità dei dati) e ha notevolmente aumentato la nostra comprensione delle funzioni e delle dinamiche di processi biologici complessi1,2. L’identificazione di trascritti ablati in diversi contesti biologici, noti anche come geni differenzialmente espressi (DEG), è un passo chiave nell’analisi RNA-seq. RNA-seq consente di ottenere una profonda comprensione dei meccanismi molecolari e delle funzioni biologiche correlate alla patogenesi. Pertanto, l’analisi differenziale è stata considerata preziosa per la diagnostica, la prognostica e la terapia dei tumori3,4,5. Attualmente, sono stati sviluppati più pacchetti R/Bioconductor open source per l’analisi dell’espressione differenziale RNA-seq, in particolare limma, DESeq2 e EdgeR1,6,7. Tuttavia, l’analisi differenziale richiede alcune abilità con il linguaggio R e la capacità di scegliere il metodo appropriato, che manca nel curriculum di educazione medica.

In questo protocollo, basato sui dati di conteggio RNA-seq del colangiocarcinoma (CHOL) estratti da The Cancer Genome Atlas (TCGA), tre dei metodi più noti (limma8,EdgeR9 e DESeq210)sono stati effettuati, rispettivamente, dal programma R11 per identificare i DEG tra CHOL e tessuti normali. I tre protocolli di limma, EdgeR e DESeq2 sono simili ma hanno passaggi diversi tra i processi di analisi. Ad esempio, i dati normalizzati del conteggio RNA-seq sono necessari per EdgeR e limma8,9, mentre DESeq2 utilizza le proprie discrepanze di libreria per correggere i dati invece della normalizzazione10. Inoltre, edgeR è specificamente adatto per i dati RNA-seq, mentre il limma viene utilizzato per microarray e RNA-seq. Un modello lineare è adottato da limma per valutare i DEG12, mentre le statistiche in edgeR si basano sulle distribuzioni binomiali negative, tra cui stima empirica di Bayes, test esatti, modelli lineari generalizzati e test di quasi-verosimiglianza9.

In sintesi, forniamo i protocolli dettagliati dell’analisi dell’espressione differenziale RNA-seq utilizzando rispettivamente limma, DESeq2 e EdgeR. Facendo riferimento a questo articolo, gli utenti possono facilmente eseguire l’analisi differenziale RNA-seq e scegliere i metodi di analisi differenziale appropriati per i loro dati.

Protocol

NOTA: Aprire il programma R-studio e caricare il file R “DEGs.R”, il file può essere acquisito da file / script supplementari. 1. Download e pre-elaborazione dei dati Scarica i dati di conteggio del sequenziamento ad alto rendimento (HTSeq) del colangiocarcinoma (CHOL) da The Cancer Genome Atlas (TCGA). Questo passaggio può essere facilmente ottenuto con il seguente codice R. Fare clic su Esegui per installare i pacchetti R. Fare clic su …

Representative Results

Esistono vari approcci per visualizzare il risultato dell’analisi dell’espressione differenziale, tra cui il diagramma del vulcano e il diagramma di Venn sono particolarmente utilizzati. limma ha identificato 3323 DEG tra il CHOL e i tessuti normali con il |logFC|≥2 e adj. P.Val <0,05 come soglie, tra cui 1880 erano down-regolati nei tessuti CHOL e 1443 erano up-regolati (Figura 1a). Nel frattempo, edgeR ha identificato i 1578 DEG down-regulated e i 3121 DEG up-regulated (<strong class="xf…

Discussion

Abbondanti trascrizioni ablate nei tumori possono essere facilmente identificate dall’analisi differenziale RNA-seq5. Tuttavia, l’applicazione dell’analisi dell’espressione differenziale RNA-seq è spesso limitata in quanto richiede determinate abilità con linguaggio R e la capacità di scegliere metodi appropriati. Per affrontare questo problema, forniamo un’introduzione dettagliata ai tre metodi più noti (limma, EdgeR e DESeq2) e tutorial per l’applicazione dell’analisi dell’espressione differ…

Declarações

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato sostenuto dalla National Natural Science Foundation of China (Grant No. 81860276) e dai Key Special Fund Projects del National Key R&D Program (Grant No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

Referências

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/pt/62528?article_type=t

Play Video

Citar este artigo
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video