Summary

Drie differentiële expressieanalysemethoden voor RNA-sequencing: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Een gedetailleerd protocol van differentiële expressie analysemethoden voor RNA-sequencing werd verstrekt: limma, EdgeR, DESeq2.

Abstract

RNA-sequencing (RNA-seq) is een van de meest gebruikte technologieën in transcriptomics omdat het de relatie tussen de genetische verandering en complexe biologische processen kan onthullen en grote waarde heeft in diagnostiek, prognose en therapieën van tumoren. Differentiële analyse van RNA-seq-gegevens is cruciaal om afwijkende transcripties te identificeren, en limma, EdgeR en DESeq2 zijn efficiënte tools voor differentiële analyse. RNA-seq differentiële analyse vereist echter bepaalde vaardigheden met R-taal en het vermogen om een geschikte methode te kiezen, die ontbreekt in het curriculum van medisch onderwijs.

Hierin bieden we het gedetailleerde protocol om differentieel uitgedrukte genen (DEG’s) tussen cholangiocarcinoom (CHOL) en normale weefsels te identificeren via respectievelijk limma, DESeq2 en EdgeR, en de resultaten worden weergegeven in vulkaanpercelen en Venn-diagrammen. De drie protocollen van limma, DESeq2 en EdgeR zijn vergelijkbaar, maar hebben verschillende stappen tussen de processen van de analyse. Een lineair model wordt bijvoorbeeld gebruikt voor statistieken in limma, terwijl de negatieve binomiale verdeling wordt gebruikt in edgeR en DESeq2. Bovendien zijn de genormaliseerde RNA-seq-tellingsgegevens noodzakelijk voor EdgeR en limma, maar niet nodig voor DESeq2.

Hier bieden we een gedetailleerd protocol voor drie differentiële analysemethoden: limma, EdgeR en DESeq2. De resultaten van de drie methoden overlappen elkaar gedeeltelijk. Alle drie de methoden hebben hun eigen voordelen en de keuze van de methode hangt alleen af van de gegevens.

Introduction

RNA-sequencing (RNA-seq) is een van de meest gebruikte technologieën in transcriptomics met veel voordelen (bijv. hoge reproduceerbaarheid van gegevens) en heeft ons begrip van de functies en dynamiek van complexe biologische processen drastisch vergroot1,2. Identificatie van aberraattranscripties onder verschillende biologische context, die ook bekend staan als differentieel uitgedrukte genen (DEG’s), is een belangrijke stap in de RNA-seq-analyse. RNA-seq maakt het mogelijk om een diepgaand begrip te krijgen van pathogenese gerelateerde moleculaire mechanismen en biologische functies. Daarom is differentiële analyse als waardevol beschouwd voor diagnostiek, prognose en therapieën van tumoren3,4,5. Momenteel zijn er meer open-source R/Bioconductor-pakketten ontwikkeld voor RNA-seq differentiële expressieanalyse, met name limma, DESeq2 en EdgeR1,6,7. Differentiële analyse vereist echter bepaalde vaardigheden met R-taal en het vermogen om de juiste methode te kiezen, die ontbreekt in het curriculum van medisch onderwijs.

In dit protocol, gebaseerd op de cholangiocarcinoom (CHOL) RNA-seq telling gegevens geëxtraheerd uit The Cancer Genome Atlas (TCGA), drie van de meest bekende methoden (limma8, EdgeR9 en DESeq210) werden uitgevoerd, respectievelijk, door het R-programma11 om de DEG’s tussen CHOL en normale weefsels te identificeren. De drie protocollen van limma, EdgeR en DESeq2 zijn vergelijkbaar, maar hebben verschillende stappen tussen de processen van de analyse. De genormaliseerde RNA-seq-tellingsgegevens zijn bijvoorbeeld nodig voor EdgeR en limma8,9, terwijl DESeq2 zijn eigen bibliotheekverschillen gebruikt om gegevens te corrigeren in plaats van normaliseren10. Verder is edgeR specifiek geschikt voor RNA-seq data, terwijl de limma wordt gebruikt voor microarrays en RNA-seq. Limma keurt een lineair model goed om de DEG ‘s12te beoordelen , terwijl de statistieken in edgeR zijn gebaseerd op de negatieve binomiale verdelingen, waaronder empirische Bayes-schatting, exacte tests, gealdaliseerde lineaire modellen en quasi-waarschijnlijkheidstests9.

Samengevat bieden we de gedetailleerde protocollen van RNA-seq differentiële expressieanalyse met behulp van respectievelijk limma, DESeq2 en EdgeR. Door naar dit artikel te verwijzen, kunnen gebruikers eenvoudig de RNA-seq differentiële analyse uitvoeren en de juiste differentiële analysemethoden voor hun gegevens kiezen.

Protocol

OPMERKING: Open het R-studio programma en laad R bestand “DEGs.R”, het bestand kan worden verkregen uit aanvullende bestanden / scripts. 1. Downloaden en voorverwerking van gegevens Download de HTSeq-count-gegevens (high-throughput sequencing) van cholangiocarcinoom (CHOL) uit The Cancer Genome Atlas (TCGA). Deze stap kan eenvoudig worden bereikt met de volgende R-code. Klik op Uitvoeren om R-pakketten te installeren. Klik op Uitvoeren </st…

Representative Results

Er zijn verschillende benaderingen om het resultaat van differentiële expressieanalyse te visualiseren, waaronder het vulkaanplot en venndiagram in het bijzonder worden gebruikt. limma identificeerde 3323 DEG’s tussen de CHOL en normale weefsels met de |logFC|≥2 en adj. P.Val <0,05 als drempels, waaronder 1880 in CHOL-weefsels en 1443 in CHOL-weefsels werden gereguleerd (figuur 1a). Ondertussen identificeerde edgeR de 1578 down-gereguleerde DEG’s en 3121 up-regulated DEG’s (<strong class=…

Discussion

Overvloedige afwijkende transcripties bij kankers kunnen gemakkelijk worden geïdentificeerd door RNA-seq differentiële analyse5. De toepassing van RNA-seq differentiële expressieanalyse is echter vaak beperkt omdat het bepaalde vaardigheden met R-taal vereist en het vermogen om geschikte methoden te kiezen. Om dit probleem aan te pakken, bieden we een gedetailleerde inleiding tot de drie meest bekende methoden (limma, EdgeR en DESeq2) en zelfstudies voor het toepassen van de RNA-seq differenti?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door de National Natural Science Foundation of China (Grant No. 81860276) en Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video