Summary

RNA 测序的三种微分表达分析方法:利马、边缘、DESeq2

Published: September 18, 2021
doi:

Summary

提供了RNA测序的微分表达分析方法的详细协议:伽利马、EdgeR、DESeq2。

Abstract

RNA测序(RNA-seq)是转录学中最广泛使用的技术之一,因为它可以揭示基因改变与复杂的生物过程之间的关系,在肿瘤的诊断、预后和治疗方面具有重要价值。RNA-seq 数据的微分分析对于识别异常转录至关重要,而 limma、EdgeR 和 DESeq2 是微分分析的有效工具。然而,RNA-seq差异分析需要一定的R语言技能和选择适当方法的能力,这是医学教育课程所缺乏的。

在此,我们提供详细的协议,以确定胆管癌 (CHOL) 和正常组织之间通过伽马, DESeq2 和 EdgeR 的差异表达基因 (DEG), 结果在火山地块和维恩图中显示。伽马、DESeq2 和 EdgeR 这三种方案相似,但在分析过程中有不同的步骤。例如,线性模型用于伽马体的统计,而负二元分布用于边缘R和DESeq2。此外,正常化的RNA-seq计数数据对于 EdgeR 和 limma 是必要的,但对于 DESeq2 来说不是必要的。

在这里,我们为三种微分分析方法提供了详细的协议:伽利马、EdgeR 和 DESeq2。这三种方法的结果是部分重叠的。这三种方法都有各自的优势,方法的选择只取决于数据。

Introduction

RNA测序(RNA-seq)是转录学中应用最广泛的技术之一,具有许多优点(例如,高数据可重复性),并极大地增进了我们对复杂生物过程1、2的功能和动力学的理解。在不同的生物背景下识别异常记录(也称为微分表达基因 )是RNA-seq分析的关键步骤。RNA-seq 使深入了解发病机制相关的分子机制和生物功能成为可能。因此,差异分析被认为是有价值的诊断,预后和治疗肿瘤3,4,5。目前,更多的开源R/生物导体包已经开发为RNA-seq差分表达分析,特别是利马,DESeq2和EdgeR 1,6,7。然而,差异分析需要一定的R语言技能和选择适当方法的能力,这是医学教育课程所缺乏的。

在本协议中,根据从癌症基因组图集 (TCGA) 中提取的胆管癌 (CHOL) RNA-seq 计数数据,R 程序11分别执行了三种最已知的方法(limma8、EdgeR9和 DESeq210),以确定 CHOL 和正常组织之间的 DEG。伽马、EdgeR 和 DESeq2 的三种方案相似,但在分析过程中有不同的步骤。例如,EdgeR 和 limma8、9需要规范化的 RNA-seq 计数数据,而 DESeq2 则使用自己的库差异来更正数据,而不是校正10。此外,edgeR 特别适用于 RNA-seq 数据,而 limma 则用于微阵列和 RNA-seq。Limma 采用线性模型来评估 DEG12,而 edgeR 中的统计数据基于负二元分布,包括经验贝叶估计、精确测试、通用线性模型和准可能性测试9。

总之,我们分别使用 limma、DESeq2 和 EdgeR 提供 RNA-seq 差分表达分析的详细协议。通过引用本文,用户可以轻松地执行 RNA-seq 差分分析,并为其数据选择适当的差分分析方法。

Protocol

注:打开 R 工作室程序并加载 R 文件”DEGs.R”,该文件可以从补充文件/脚本中获取。 1. 数据的下载和预处理 从癌症基因组图集 (TCGA) 下载胆管癌 (CHOL) 的高通量测序 (HTSeq) 计数数据。此步骤可以通过以下 R 代码轻松实现。 单击 “运行” 以安装 R 包。 单击 “运行” 以加载 R 包。如果 (! 需要命名空间 (”生物经理”, 悄悄?…

Representative Results

有各种方法可视化差异表达分析的结果,其中火山图和维恩图特别使用。利马用|logFC|≥2和adj识别了 CHOL 和正常组织之间的 3323 个 DEG。P.Val<0.05作为阈值,其中1880个在CHOL组织中被降低调节,1443个被调高(图1a)。同时,EdgeR 确定了 1578 个下监管 DEG 和 3121 个向上监管的 DEG(图 1b):DESeq2 确定了 1616 个下行监管的 DEG 和 2938 个向上监管的 DEG(<strong class="…

Discussion

丰富的癌症异常记录可以通过RNA-seq差分分析5轻松识别。但是,RNA-seq 差分表达分析的应用往往受到限制,因为它需要具有某些 R 语言技能和选择适当方法的能力。为了解决这个问题,我们提供了三种最已知的方法(limma、EdgeR 和 DESeq2)的详细介绍,以及应用 RNA-seq 差分表达分析的教程。这将促进理解所有三种方法的相似性和差异,使选择适合单个数据的方法,并使我们能够了解…

Declarações

The authors have nothing to disclose.

Acknowledgements

这项工作得到了中国国家自然科学基金(81860276号赠款)和国家重点研发计划重点专项资金项目(2018YFC1003200号赠款)的支持。

Materials

R version 3.6.2 free software
Rstudio free software

Referências

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/pt/62528?article_type=t

Play Video

Citar este artigo
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video