Summary

Tre differensialuttrykksanalysemetoder for RNA-sekvensering: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

En detaljert protokoll for differensialuttrykksanalysemetoder for RNA-sekvensering ble gitt: limma, EdgeR, DESeq2.

Abstract

RNA-sekvensering (RNA-seq) er en av de mest brukte teknologiene innen transkripsjon, da den kan avsløre forholdet mellom den genetiske endringen og komplekse biologiske prosesser og har stor verdi i diagnostikk, prognostikk og terapeutiske svulster. Differensialanalyse av RNA-seq-data er avgjørende for å identifisere avvikende transkripsjoner, og limma, EdgeR og DESeq2 er effektive verktøy for differensialanalyse. Imidlertid krever RNA-seq differensialanalyse visse ferdigheter med R-språk og evnen til å velge en passende metode, som mangler i læreplanen for medisinsk utdanning.

Heri gir vi den detaljerte protokollen for å identifisere differensialt uttrykte gener (DEG) mellom cholangiocarcinoma (CHOL) og normalt vev gjennom henholdsvis limma, DESeq2 og EdgeR, og resultatene vises i vulkanplott og Venn-diagrammer. De tre protokollene limma, DESeq2 og EdgeR er like, men har forskjellige trinn blant prosessene i analysen. For eksempel brukes en lineær modell til statistikk i limma, mens den negative binomiske fordelingen brukes i edgeR og DESeq2. I tillegg er de normaliserte RNA-seq count-dataene nødvendige for EdgeR og limma, men er ikke nødvendig for DESeq2.

Her gir vi en detaljert protokoll for tre differensialanalysemetoder: limma, EdgeR og DESeq2. Resultatene av de tre metodene er delvis overlappende. Alle tre metodene har sine egne fordeler, og valg av metode avhenger bare av dataene.

Introduction

RNA-sekvensering (RNA-seq) er en av de mest brukte teknologiene innen transkripsjon med mange fordeler (f.eks. høy datareroduserbarhet), og har dramatisk økt vår forståelse av funksjonene og dynamikken i komplekse biologiske prosesser1,2. Identifisering av aberrate transkripsjoner under ulike biologiske kontekster, som også er kjent som differensialt uttrykte gener (DEGs), er et viktig skritt i RNA-seq analyse. RNA-seq gjør det mulig å få en dyp forståelse av patogeneserelaterte molekylære mekanismer og biologiske funksjoner. Derfor har differensialanalyse blitt ansett som verdifull for diagnostikk, prognostikk og terapeutiske svulster3,4,5. For tiden er flere open source R / Bioconductor-pakker utviklet for RNA-seq differensialuttrykksanalyse, spesielt limma, DESeq2 og EdgeR1,6,7. Differensialanalyse krever imidlertid visse ferdigheter med R-språk og evnen til å velge riktig metode, som mangler i læreplanen for medisinsk utdanning.

I denne protokollen, basert på cholangiokarsinom (CHOL) RNA-seq count data hentet fra The Cancer Genome Atlas (TCGA), ble tre av de mest kjente metodene (limma8, EdgeR9 og DESeq210) utført av R-programmet11 for å identifisere DEG-ene mellom CHOL og normalt vev. De tre protokollene limma, EdgeR og DESeq2 er like, men har forskjellige trinn blant prosessene i analysen. De normaliserte RNA-seq count -dataene er for eksempel nødvendige for EdgeR og limma8,9, mens DESeq2 bruker sine egne bibliotekavvik til å korrigere data i stedet for normalisering10. Videre er edgeR spesielt egnet for RNA-seq data, mens limma brukes til mikroarrays og RNA-seq. En lineær modell er vedtatt av limma for å vurdere DEGs12, mens statistikken i edgeR er basert på de negative binomiske fordelingene, inkludert empiriske Bayes-estimering, eksakte tester, generaliserte lineære modeller og kvasi-sannsynlighetstester9.

Oppsummert tilbyr vi de detaljerte protokollene for RNA-seq differensialuttrykksanalyse ved hjelp av henholdsvis limma, DESeq2 og EdgeR. Ved å referere til denne artikkelen kan brukerne enkelt utføre RNA-seq differensialanalysen og velge de riktige differensialanalysemetodene for dataene sine.

Protocol

MERK: Åpne R-studioprogrammet og last inn R-filen “DEGs.R”, filen kan anskaffes fra tilleggsfiler / skript. 1. Nedlasting og forhåndsbehandling av data Last ned høygjennomstrømningssekvenseringsdataene (HTSeq) for cholangiokarsinom (CHOL) fra The Cancer Genome Atlas (TCGA). Dette trinnet kan enkelt oppnås ved hjelp av følgende R-kode. Klikk Kjør for å installere R-pakker. Klikk Kjør for å laste inn R-pakker.if(!requir…

Representative Results

Det finnes ulike tilnærminger for å visualisere resultatet av differensialuttrykksanalyse, blant annet vulkanplottet og Venn-diagrammet er spesielt brukt. limma identifiserte 3323 DEG mellom CHOL og normalt vev med |logFC|≥2 og adj. P.Val <0,05 som terskler, hvorav 1880 var nedregulert i CHOL-vev og 1443 var oppregulert (Figur 1a). I mellomtiden identifiserte edgeR de 1578 nedregulerte DEG-ene og 3121 oppregulerte DEG-er (Figur 1b); DESeq2 identifiserte de 1…

Discussion

Rikelig aberrate transkripsjoner i kreft kan lett identifiseres ved RNA-seq differensialanalyse5. Anvendelsen av RNA-seq differensialuttrykksanalyse er imidlertid ofte begrenset, da det krever visse ferdigheter med R-språk og kapasitet til å velge passende metoder. For å løse dette problemet gir vi en detaljert introduksjon til de tre mest kjente metodene (limma, EdgeR og DESeq2) og opplæringsprogrammer for å bruke RNA-seq differensialuttrykksanalyse. Dette vil legge til rette for forståels…

Declarações

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av National Natural Science Foundation of China (Grant No. 81860276) og Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

Referências

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/pt/62528?article_type=t

Play Video

Citar este artigo
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video