Summary

Tre differentialuttrycksanalysmetoder för RNA-sekvensering: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Ett detaljerat protokoll av differentiala uttryck analysmetoder för RNA sekvensering tillhandahölls: limma, EdgeR, DESeq2.

Abstract

RNA-sekvensering (RNA-seq) är en av de mest använda teknikerna inom transkriptomik eftersom det kan avslöja förhållandet mellan den genetiska förändringen och komplexa biologiska processer och har stort värde i diagnostik, prognostik och terapier av tumörer. Differentialanalys av RNA-seq-data är avgörande för att identifiera avvikande transkriptioner, och limma, EdgeR och DESeq2 är effektiva verktyg för differentialanalys. RNA-seq differentialanalys kräver dock vissa färdigheter med R-språk och förmågan att välja en lämplig metod, vilket saknas i läroplanen för medicinsk utbildning.

Häri tillhandahåller vi det detaljerade protokollet för att identifiera differentiellt uttryckta gener (DEGs) mellan cholangiocarcinoma (CHOL) och normala vävnader genom limma, DESeq2 respektive EdgeR, och resultaten visas i vulkanområden och Venn diagram. De tre protokollen limma, DESeq2 och EdgeR är liknande men har olika steg mellan analysprocesserna. En linjär modell används till exempel för statistik i limma, medan den negativa binomialfördelningen används i edgeR och DESeq2. Dessutom är de normaliserade RNA-seq count data nödvändiga för EdgeR och limma men är inte nödvändigt för DESeq2.

Här tillhandahåller vi ett detaljerat protokoll för tre differentialanalysmetoder: limma, EdgeR och DESeq2. Resultaten av de tre metoderna överlappar delvis varandra. Alla tre metoderna har sina egna fördelar, och valet av metod beror bara på data.

Introduction

RNA-sekvensering (RNA-seq) är en av de mest använda teknikerna inom transkriptomik med många fördelar (t.ex. hög data reproducerbarhet), och har dramatiskt ökat vår förståelse för funktionerna och dynamiken i komplexa biologiska processer1,2. Identifiering av aberrate transkript under olika biologiska sammanhang, som också kallas differentiellt uttryckta gener (DEGs), är ett viktigt steg i RNA-seq analys. RNA-seq gör det möjligt att få en djup förståelse för patogenesrelaterade molekylära mekanismer och biologiska funktioner. Därför har differentiell analys betraktats som värdefull för diagnostik, prognostika och terapier avtumörer 3,4,5. För närvarande har fler R/Bioconductor-paket med öppen källkod utvecklats för RNA-seq differentialuttrycksanalys, särskilt limma, DESeq2 och EdgeR1,6,7. Differentiell analys kräver dock vissa färdigheter med R-språk och förmågan att välja lämplig metod, vilket saknas i läroplanen för medicinsk utbildning.

I detta protokoll, baserat på cholangiocarcinoma (CHOL) RNA-seq count data extraherade från Cancer Genome Atlas (TCGA), utfördes tre av de mest kända metoderna (limma8,EdgeR9 och DESeq210)av R program11 för att identifiera DEGs mellan CHOL och normala vävnader. De tre protokollen limma, EdgeR och DESeq2 är liknande men har olika steg mellan analysprocesserna. Till exempel är de normaliserade RNA-seq-räknedata nödvändiga för EdgeR och limma8,9, medan DESeq2 använder sina egna biblioteksavvikelser för att korrigera data istället förnormalisering 10. Dessutom är edgeR särskilt lämplig för RNA-seq-data, medan limman används för mikroarrayer och RNA-seq. En linjär modell antas av limma för att bedöma degs12, medan statistiken i edgeR baseras på de negativa binomialfördelningarna, inklusive empirisk Bayes uppskattning, exakta tester, generaliserade linjära modeller och kvasi-sannolikhetstester9.

Sammanfattningsvis tillhandahåller vi detaljerade protokoll för RNA-seq differentialuttrycksanalys med hjälp av limma, DESeq2 respektive EdgeR. Genom att hänvisa till den här artikeln kan användare enkelt utföra RNA-seq differentialanalysen och välja lämpliga differentiella analysmetoder för sina data.

Protocol

OBS: Öppna R-studioprogrammet och ladda R-filen “DEGs.R”, filen kan förvärvas från kompletterande filer / skript. 1. Nedladdning och förbehandling av uppgifter Ladda ner HTSeq (High-Throughput Sekvensering) antal data av cholangiocarcinoma (CHOL) från Cancer Genome Atlas (TCGA). Detta steg kan enkelt uppnås med följande R-kod. Klicka på Kör om du vill installera R-paket. Klicka på Kör om du vill läsa in R-paket.if(…

Representative Results

Det finns olika metoder för att visualisera resultatet av differentialuttrycksanalys, bland vilka vulkandiagrammet och Venndiagrammet används särskilt. limma identifierade 3323 degs mellan CHOL och normala vävnader med |logFC|≥2 och adj. P.Val <0,05 som trösklar, bland vilka 1880 var nedreglerade i CHOL-vävnader och 1443 var uppreglerade (Figur 1a). Under tiden identifierade EdgeR de 1578 nedreglerade deserger och 3121 reglerade deg(figur 1b). DESeq2 ide…

Discussion

Rikliga aberrate transkript i cancer kan lätt identifieras genom RNA-seq differentialanalys5. Tillämpningen av RNA-seq differential uttryck analys är dock ofta begränsad eftersom det kräver vissa färdigheter med R språk och förmågan att välja lämpliga metoder. För att lösa detta problem ger vi en detaljerad introduktion till de tre mest kända metoderna (limma, EdgeR och DESeq2) och handledningar för tillämpning av RNA-seq differentialuttryck analys. Detta kommer att underlätta fö…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Detta arbete stöddes av National Natural Science Foundation of China (Grant No. 81860276) och Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/kr/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video