Summary

Três métodos diferenciais de análise de expressão para sequenciamento de RNA: limma, EdgeR, DESeq2

Published: September 18, 2021
doi:

Summary

Foi fornecido um protocolo detalhado de métodos de análise de expressão diferencial para sequenciamento de RNA: limma, EdgeR, DESeq2.

Abstract

O sequenciamento de RNA (RNA-seq) é uma das tecnologias mais utilizadas em transcriptômica, pois pode revelar a relação entre a alteração genética e os processos biológicos complexos e tem grande valor em diagnósticos, prognósticos e terapêuticas de tumores. A análise diferencial dos dados do RNA-seq é crucial para identificar transcrições aberrantes, e limma, EdgeR e DESeq2 são ferramentas eficientes para análise diferencial. No entanto, a análise diferencial do RNA-seq requer certas habilidades com linguagem R e a capacidade de escolher um método adequado, que está faltando no currículo da educação médica.

Aqui, fornecemos o protocolo detalhado para identificar genes expressos diferencialmente (DEGs) entre o cholangiocarcinoma (CHOL) e os tecidos normais através de limma, DESeq2 e EdgeR, respectivamente, e os resultados são mostrados em parcelas vulcânicas e diagramas de Venn. Os três protocolos de limma, DESeq2 e EdgeR são semelhantes, mas têm etapas diferentes entre os processos da análise. Por exemplo, um modelo linear é usado para estatísticas em limma, enquanto a distribuição binomial negativa é usada em edgeR e DESeq2. Além disso, os dados de contagem de RNA-seq normalizados são necessários para EdgeR e limma, mas não é necessário para o DESeq2.

Aqui, fornecemos um protocolo detalhado para três métodos de análise diferencial: limma, EdgeR e DESeq2. Os resultados dos três métodos são parcialmente sobrepostos. Todos os três métodos têm suas próprias vantagens, e a escolha do método depende apenas dos dados.

Introduction

O RNA-sequenciamento (RNA-seq) é uma das tecnologias mais utilizadas em transcriptômicas com muitas vantagens (por exemplo, reprodutibilidade de dados elevados), e aumentou drasticamente nossa compreensão das funções e dinâmicas dos processos biológicos complexos1,2. A identificação de transcrições aberratas em diferentes contextos biológicos, também conhecidos como genes expressos diferencialmente (DEGs), é um passo fundamental na análise do RNA-seq. O RNA-seq torna possível obter uma compreensão profunda dos mecanismos moleculares relacionados à patogênese e funções biológicas. Portanto, a análise diferencial tem sido considerada valiosa para diagnósticos, prognósticos e terapêuticas de tumores3,4,5. Atualmente, mais pacotes de R/Bioconductor de código aberto foram desenvolvidos para análise de expressão diferencial RNA-seq, particularmente limma, DESeq2 e EdgeR1,6,7. No entanto, a análise diferencial requer certas habilidades com linguagem R e a capacidade de escolher o método adequado, que está faltando no currículo da educação médica.

Neste protocolo, com base nos dados da contagem de RNA-seq de cholangiocarcinoma (CHOL) extraídos do Atlas do Genoma do Câncer (TCGA), três dos métodos mais conhecidos (limma8, EdgeR9 e DESeq210) foram realizados, respectivamente, pelo programa R11 para identificar os DEGs entre CHOL e tecidos normais. Os três protocolos de limma, EdgeR e DESeq2 são semelhantes, mas têm etapas diferentes entre os processos de análise. Por exemplo, os dados de contagem de RNA-seq normalizados são necessários para EdgeR e limma8,9, enquanto o DESeq2 usa suas próprias discrepâncias de biblioteca para corrigir dados em vez de normalização10. Além disso, edgeR é especificamente adequado para dados RNA-seq, enquanto o limma é usado para microarrays e RNA-seq. Um modelo linear é adotado pela limma para avaliar os DEGs12,enquanto as estatísticas em edgeR são baseadas nas distribuições binomiais negativas, incluindo estimativa empírica de Bayes, testes exatos, modelos lineares generalizados e testes de quase-probabilidade9.

Em resumo, fornecemos os protocolos detalhados da análise de expressão diferencial RNA-seq utilizando limma, DESeq2 e EdgeR, respectivamente. Ao se referir a este artigo, os usuários podem facilmente realizar a análise diferencial do RNA-seq e escolher os métodos de análise diferencial adequados para seus dados.

Protocol

NOTA: Abra o programa R-studio e carregue o arquivo R “DEGs.R”, o arquivo pode ser adquirido a partir de arquivos suplementares/Scripts. 1. Download e pré-processamento de dados Baixe os dados da contagem de colhidos (HTSeq) de cholangiocarcinoma (CHOL) do Atlas do Genoma do Câncer (TCGA). Esta etapa pode ser facilmente alcançada pelo seguinte código R. Clique em Executar para instalar pacotes R. Clique em Executar para carrega…

Representative Results

Existem várias abordagens para visualizar o resultado da análise de expressão diferencial, entre as quais o enredo do vulcão e o diagrama de Venn são particularmente utilizados. limma identificou 3323 DEGs entre o CHOL e tecidos normais com o |logFC|≥2 e adj. P.Val <0,05 como limiares, entre os quais 1880 foram regulados em tecidos CHOL e 1443 foram regulados(Figura 1a). Enquanto isso, o edgeR identificou os 1578 DEGs para baixo regulados e 3121 DEGs up-regulated(…

Discussion

Transcrições abundantes de aberrate em cânceres podem ser facilmente identificadas pela análise diferencial RNA-seq5. No entanto, a aplicação da análise de expressão diferencial RNA-seq é muitas vezes restrita, pois requer certas habilidades com linguagem R e a capacidade de escolher métodos apropriados. Para resolver esse problema, fornecemos uma introdução detalhada aos três métodos mais conhecidos (limma, EdgeR e DESeq2) e tutoriais para a aplicação da análise de expressão dif…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este trabalho foi apoiado pela National Natural Science Foundation of China (Grant No. 81860276) e key Special Fund Projects of National Key P&D Program (Grant No. 2018YFC1003200).

Materials

R version 3.6.2 free software
Rstudio free software

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, 1035-1043 (2013).
check_url/62528?article_type=t

Play Video

Cite This Article
Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

View Video