Summary

Drei Differentielle Expressionsanalysemethoden für die RNA-Sequenzierung: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Ein detailliertes Protokoll der methoden der differentiellen Expressionsanalyse für die RNA-Sequenzierung wurde bereitgestellt: limma, EdgeR, DESeq2.

Abstract

Die RNA-Sequenzierung (RNA-seq) ist eine der am weitesten verbreiteten Technologien in der Transkriptomik, da sie den Zusammenhang zwischen der genetischen Veränderung und komplexen biologischen Prozessen aufdecken kann und einen großen Wert in der Diagnostik, Prognose und Therapeutik von Tumoren hat. Die Differentialanalyse von RNA-seq-Daten ist entscheidend, um aberrante Transkriptionen zu identifizieren, und limma, EdgeR und DESeq2 sind effiziente Werkzeuge für die Differentialanalyse. Die RNA-seq-Differentialanalyse erfordert jedoch bestimmte Fähigkeiten mit der Sprache R und die Fähigkeit, eine geeignete Methode zu wählen, die im Lehrplan der medizinischen Ausbildung fehlt.

Hierin stellen wir das detaillierte Protokoll zur Identifizierung differentiell exprimierter Gene (DEGs) zwischen Cholangiokarzinom (CHOL) und normalem Gewebe durch Limma, DESeq2 bzw. EdgeR zur Verfügung, und die Ergebnisse werden in Vulkandiagrammen und Venn-Diagrammen gezeigt. Die drei Protokolle limma, DESeq2 und EdgeR sind ähnlich, haben aber unterschiedliche Schritte zwischen den Prozessen der Analyse. Beispielsweise wird ein lineares Modell für die Statistik in Limma verwendet, während die negative Binomialverteilung in edgeR und DESeq2 verwendet wird. Darüber hinaus sind die normalisierten RNA-Seq-Zähldaten für EdgeR und Limma notwendig, aber nicht für DESeq2.

Hier stellen wir ein detailliertes Protokoll für drei Differentialanalysemethoden zur Verfügung: limma, EdgeR und DESeq2. Die Ergebnisse der drei Methoden überschneiden sich teilweise. Alle drei Methoden haben ihre eigenen Vorteile, und die Wahl der Methode hängt nur von den Daten ab.

Introduction

Die RNA-Sequenzierung (RNA-seq) ist eine der am weitesten verbreiteten Technologien in der Transkriptomik mit vielen Vorteilen (z. B. hohe Datenreproduzierbarkeit) und hat unser Verständnis der Funktionen und Dynamik komplexer biologischer Prozesse dramatisch verbessert1,2. Die Identifizierung von Aberrat-Transkripten unter verschiedenen biologischen Kontexten, die auch als differentiell exprimierte Gene (DEGs) bezeichnet werden, ist ein wichtiger Schritt in der RNA-seq-Analyse. RNA-seq ermöglicht ein tiefes Verständnis der pathogenesebezogenen molekularen Mechanismen und biologischen Funktionen. Daher wurde die Differentialanalyse als wertvoll für die Diagnostik, Prognose und Therapie von Tumoren3,4,5angesehen. Derzeit wurden weitere Open-Source-R/Bioconductor-Pakete für die RNA-seq-Differentialexpressionsanalyse entwickelt, insbesondere limma, DESeq2 und EdgeR1,6,7. Die Differentialanalyse erfordert jedoch bestimmte Fähigkeiten mit der Sprache R und die Fähigkeit, die geeignete Methode zu wählen, die im Lehrplan der medizinischen Ausbildung fehlt.

In diesem Protokoll wurden basierend auf den Cholangiokarzinom (CHOL) RNA-seq-Zähldaten, die aus dem Cancer Genome Atlas (TCGA) extrahiert wurden, drei der bekanntesten Methoden (Limma8, EdgeR9 und DESeq210) vom R-Programm11 durchgeführt, um die DEGs zwischen CHOL und normalem Gewebe zu identifizieren. Die drei Protokolle limma, EdgeR und DESeq2 sind ähnlich, haben aber unterschiedliche Schritte zwischen den Prozessen der Analyse. Zum Beispiel sind die normalisierten RNA-seq-Zähldaten für EdgeR und Limma8,9notwendig, während DESeq2 seine eigenen Bibliotheksdiskrepanzen verwendet, um Daten anstelle von Normalisierung10zu korrigieren. Darüber hinaus eignet sich edgeR speziell für RNA-seq-Daten, während das limma für Microarrays und RNA-seq verwendet wird. Ein lineares Modell wird von limma zur Bewertung der DEGs12übernommen, während die Statistiken in edgeR auf den negativen Binomialverteilungen basieren, einschließlich empirischer Bayes-Schätzung, exakter Tests, verallgemeinerter linearer Modelle und Quasi-Wahrscheinlichkeitstests9.

Zusammenfassend stellen wir die detaillierten Protokolle der RNA-seq-Differentialexpressionsanalyse unter Verwendung von limma, DESeq2 bzw. EdgeR zur Verfügung. Durch bezugnahmend auf diesen Artikel können Benutzer die RNA-seq-Differentialanalyse einfach durchführen und die geeigneten Differentialanalysemethoden für ihre Daten auswählen.

Protocol

HINWEIS: Öffnen Sie das R-studio-Programm und laden Sie die R-Datei “DEGs.R”, die Datei kann aus Ergänzenden Dateien/Skripten erworben werden. 1. Herunterladen und Vorverarbeitung von Daten Laden Sie die Hochdurchsatz-Sequenzierungsdaten (HTSeq) des Cholangiokarzinoms (CHOL) aus dem Cancer Genome Atlas (TCGA) herunter. Dieser Schritt kann leicht durch den folgenden R-Code erreicht werden. Klicken Sie auf Ausführen, um R-Pakete zu installieren. K…

Representative Results

Es gibt verschiedene Ansätze, um das Ergebnis der Differentialexpressionsanalyse zu visualisieren, unter denen insbesondere das Vulkandiagramm und das Venn-Diagramm verwendet werden. limma identifizierte 3323 DEGs zwischen dem CHOL und normalem Gewebe mit den |logFC|≥2 und adj. P.Val <0,05 als Schwellenwerte, darunter 1880 in CHOL-Geweben herunterreguliert und 1443 hochreguliert wurden (Abbildung 1a). In der Zwischenzeit identifizierte edgeR die 1578 herunterregulierten DEGs und 3121 hoch…

Discussion

Reichlich vorhandene Aberrat-Transkripte bei Krebserkrankungen können leicht durch RNA-seq-Differentialanalyse identifiziert werden5. Die Anwendung der RNA-seq-Differentialexpressionsanalyse ist jedoch oft eingeschränkt, da sie bestimmte Kenntnisse mit der R-Sprache und die Fähigkeit, geeignete Methoden zu wählen, erfordert. Um dieses Problem anzugehen, bieten wir eine detaillierte Einführung in die drei bekanntesten Methoden (limma, EdgeR und DESeq2) und Tutorials zur Anwendung der RNA-seq-D…

Declarações

The authors have nothing to disclose.

Acknowledgements

Diese Arbeit wurde von der National Natural Science Foundation of China (Grant No. 81860276) und Key Special Fund Projects des National Key R&D Program (Grant No. 2018YFC1003200) unterstützt.

Materials

R version 3.6.2 free software
Rstudio free software

Referências

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/pt/62528?article_type=t

Play Video

Citar este artigo
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video