Summary

Три метода дифференциального экспрессионного анализа для секвенирования РНК: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Приведен подробный протокол методов дифференциального экспрессионного анализа для секвенирования РНК: limma, EdgeR, DESeq2.

Abstract

Секвенирование РНК (RNA-seq) является одной из наиболее широко используемых технологий в транскриптомике, поскольку оно может выявить связь между генетическим изменением и сложными биологическими процессами и имеет большое значение в диагностике, прогностике и терапии опухолей. Дифференциальный анализ данных RNA-seq имеет решающее значение для выявления аберрантных транскрипций, а limma, EdgeR и DESeq2 являются эффективными инструментами для дифференциального анализа. Однако дифференциальный анализ RNA-seq требует определенных навыков владения языком R и умения выбирать соответствующий метод, чего не хватает в учебной программе медицинского образования.

Здесь мы предоставляем подробный протокол для идентификации дифференциально экспрессированных генов (DEG) между холангиокарциномой (CHOL) и нормальными тканями через limma, DESeq2 и EdgeR, соответственно, и результаты показаны на графиках вулканов и диаграммах Венна. Три протокола limma, DESeq2 и EdgeR похожи, но имеют разные этапы среди процессов анализа. Например, линейная модель используется для статистики в лимме, в то время как отрицательное биномиальное распределение используется в edgeR и DESeq2. Кроме того, нормализованные данные о количестве РНК-seq необходимы для EdgeR и limma, но не нужны для DESeq2.

Здесь мы предоставляем подробный протокол для трех методов дифференциального анализа: limma, EdgeR и DESeq2. Результаты применения трех методов частично перекрываются. Все три метода имеют свои преимущества, и выбор метода зависит только от данных.

Introduction

РНК-секвенирование (RNA-seq) является одной из наиболее широко используемых технологий в транскриптомике со многими преимуществами (например, высокой воспроизводимостью данных) и значительно расширило наше понимание функций и динамики сложных биологических процессов1,2. Идентификация аберратных транскриптов в различных биологических контекстах, которые также известны как дифференциально экспрессированные гены (ДЭГ), является ключевым шагом в анализе РНК-seq. RNA-seq позволяет получить глубокое понимание молекулярных механизмов и биологических функций, связанных с патогенезом. Поэтому дифференциальный анализ был расценен как ценный для диагностики, прогностики и терапии опухолей3,4,5. В настоящее время для дифференциального экспресс-анализа РНК-seq разработано больше пакетов R/Bioconductor с открытым исходным кодом, в частности limma, DESeq2 и EdgeR1,6,7. Однако дифференциальный анализ требует определенных навыков владения языком R и умения выбирать подходящий метод, чего не хватает в учебной программе медицинского образования.

В этом протоколе, основанном на данных о количестве РНК-seq холангиокарциномы (CHOL), извлеченных из Атласа генома рака (TCGA), три наиболее известных метода (limma8,EdgeR9 и DESeq210)были проведены, соответственно, программой R11 для идентификации DEG между CHOL и нормальными тканями. Три протокола limma, EdgeR и DESeq2 похожи, но имеют разные этапы среди процессов анализа. Например, нормализованные данные о количестве РНК-seq необходимы для EdgeR и limma8,9, тогда как DESeq2 использует свои собственные библиотечные расхождения для исправления данных вместо нормализации10. Кроме того, edgeR специально подходит для данных RNA-seq, в то время как limma используется для микрочипов и RNA-seq. Линейная модель принята Limma для оценки DEG12,в то время как статистика в edgeR основана на отрицательных биномиальных распределениях, включая эмпирическую оценку Байеса, точные тесты, обобщенные линейные модели и квазивероятностные тесты9.

Таким образом, мы предоставляем подробные протоколы дифференциального экспрессивного анализа RNA-seq с использованием limma, DESeq2 и EdgeR соответственно. Ссылаясь на эту статью, пользователи могут легко выполнить дифференциальный анализ RNA-seq и выбрать подходящие методы дифференциального анализа для своих данных.

Protocol

ПРИМЕЧАНИЕ: Откройте программу R-studio и загрузите R файл “DEGs.R”, файл можно получить из Дополнительных файлов/Скриптов. 1. Загрузка и предварительная обработка данных Загрузите данные о количестве высокопроизводительного секвенирования (HTSeq) холангиокарциномы (CHOL) из А?…

Representative Results

Существуют различные подходы к визуализации результата дифференциального экспрессионного анализа, среди которых особенно используются график вулкана и диаграмма Венна. Лимма идентифицировала 3323 ДЭГ между CHOL и нормальными тканями с |logFC|≥2 и adj. P.Val <0,05 в качестве пороговых значений, ср?…

Discussion

Обильные аберратные транскрипты при раке могут быть легко идентифицированы с помощью дифференциального анализа RNA-seq5. Однако применение дифференциального экспрессивного анализа RNA-seq часто ограничено, поскольку оно требует определенных навыков владения языком R и способ?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа была поддержана Национальным фондом естественных наук Китая (грант No 81860276) и Ключевыми проектами Специального фонда Национальной ключевой программы НИОКР (грант No 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video