Summary

Identificação de Splicing Alternativo e Poliadenilação em Dados de RNA-seq

Published: June 24, 2021
doi:

Summary

O splicing alternativo (AS) e a poliadenilação alternativa (APA) expandem a diversidade de isoformas de transcritos e seus produtos. Aqui, descrevemos protocolos de bioinformática para analisar ensaios de RNA-seq em massa e sequenciamento final de 3′ para detectar e visualizar AS e APA variando entre condições experimentais.

Abstract

Assim como a análise típica de RNA-Seq para medir a expressão gênica diferencial (DGE) em condições experimentais / biológicas, os dados de RNA-seq também podem ser utilizados para explorar outros mecanismos regulatórios complexos no nível do éxon. O splicing alternativo e a poliadenilação desempenham um papel crucial na diversidade funcional de um gene, gerando diferentes isoformas para regular a expressão gênica no nível pós-transcricional, e limitar as análises a todo o nível do gene pode perder essa importante camada reguladora. Aqui, demonstramos análises detalhadas passo a passo para identificação e visualização do uso diferencial do éxon e do local de poliadenilação em todas as condições, usando Bioconductor e outros pacotes e funções, incluindo DEXSeq, diffSplice do pacote Limma e rMATS.

Introduction

O RNA-seq tem sido amplamente utilizado ao longo dos anos, tipicamente para estimar a expressão gênica diferencial e a descoberta de genes1. Além disso, também pode ser utilizado para estimar o uso variável do nível de éxons devido ao gene que expressa diferentes isoformas, contribuindo assim para uma melhor compreensão da regulação gênica no nível pós-transcricional. A maioria dos genes eucarióticos gera diferentes isoformas por splicing alternativo (AS) para aumentar a diversidade de expressão de mRNA. Os eventos AS podem ser divididos em diferentes padrões: pulando éxons completos (SE), onde um éxon (“”) é completamente removido da transcrição junto com seus íntrons flanqueadores; seleção alternativa (doador) de local de emenda de 5′ (A5SS) e seleção de local de emenda alternativa de 3′ (aceitador) (A3SS) quando dois ou mais locais de emenda estiverem presentes em cada extremidade de um éxon; retenção de íntrons (IR) quando um íntron é retido dentro do transcrito de mRNA maduro e exclusão mútua do uso de éxons (MXE) onde apenas um dos dois éxons disponíveis pode ser retido de cada vez 2,3. A poliadenilação alternativa (APA) também desempenha um papel importante na regulação da expressão gênica usando sítios alternativos de poli (A) para gerar múltiplas isoformas de mRNA a partir de um único transcrito4. A maioria dos sítios de poliadenilação (pAs) está localizada na região não traduzida de 3′ (UTRs de 3′), gerando isoformas de mRNA com diversos comprimentos UTR de 3′. Como a UTR de 3′ é o hub central para o reconhecimento de elementos regulatórios, diferentes comprimentos de UTR de 3′ podem afetar a localização, a estabilidade e a tradução do mRNA5. Há uma classe de ensaios de sequenciamento final de 3′ otimizados para detectar APA que diferem nos detalhes do protocolo6. O pipeline descrito aqui é projetado para PolyA-seq, mas pode ser adaptado para outros protocolos, conforme descrito.

Neste estudo, apresentamos um pipeline de métodos diferenciais de análise de éxons7,8 (Figura 1), que podem ser divididos em duas grandes categorias: baseada em éxons (DEXSeq9, diffSplice 10) e baseada em eventos (replicate Multivariate Analysis of Transcript Splicing (rMATS)11). Os métodos baseados em éxons comparam a mudança de dobra entre as condições de éxons individuais, contra uma medida de mudança geral de dobra gênica para chamar o uso de éxons diferencialmente expressos e, a partir disso, calculam uma medida em nível de gene da atividade EA. Os métodos baseados em eventos usam leituras de junção de abrangência de exon-intron para detectar e classificar eventos de splicing específicos, como pulo de éxon ou retenção de íntrons, e distinguir esses tipos de AS na saída3. Assim, esses métodos fornecem visões complementares para uma análise completa da EA12,13. Selecionamos o DEXSeq (baseado no pacote DESeq214 DGE) e o diffSplice (baseado no pacote Limma10 DGE) para o estudo, pois estão entre os pacotes mais utilizados para análise de splicing diferencial. O rMATS foi escolhido como um método popular para análise baseada em eventos. Outro método popular baseado em eventos é o MISO (Mix of Isoforms)1. Para a APA, adaptamos a abordagem baseada em exons.

Figure 1
Figura 1. Análise de pipeline. Fluxograma das etapas utilizadas na análise. As etapas incluem: obtenção dos dados, realização de verificações de qualidade e alinhamento de leitura seguidas de contagem de leituras usando anotações para éxons, íntrons e sites pA conhecidos, filtragem para remover contagens baixas e normalização. Os dados de PolyA-seq foram analisados para sítios alternativos de pA usando os métodos diffSplice/DEXSeq, o RNA-Seq em massa foi analisado para splicing alternativo no nível do éxon com os métodos diffSplice/DEXseq e os eventos AS analisados com rMATS. Por favor, clique aqui para ver uma versão maior desta figura.

Os dados de RNA-seq utilizados neste levantamento foram adquiridos do Gene Expression Omnibus (GEO) (GSE138691)15. Utilizamos dados de RNA-seq de camundongos deste estudo com dois grupos de condições: wild-type (WT) e Muscleblind-like type 1 knockout (Mbnl1 KO) com três repetições cada. Para demonstrar a análise diferencial do uso do sítio de poliadenilação, obtivemos dados PolyA-seq de fibroblastos embrionários de camundongos (MEFs) (GEO Accession GSE60487)16. Os dados têm quatro grupos de condições: Wild-type (WT), Muscleblind-like type1/type 2 double knockout (Mbnl1/2 DKO), Mbnl 1/2 DKO com Mbnl3 knockdown (KD) e Mbnl1/2 DKO com controle Mbnl3 (Ctrl). Cada grupo de condições consiste em duas replicações.

Adesão ao GEO Número de execução SRA Nome do exemplo Condição Replicar Tecido Seqüenciamento Comprimento de leitura
RNA-Seq Telemóvel GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Nocaute Mbnl1 Rep 1 Timo Extremidade emparelhada 100 pb
Telemóvel GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Nocaute Mbnl1 Rep 2 Timo Extremidade emparelhada 100 pb
Telemóvel GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Nocaute Mbnl1 Rep 3 Timo Extremidade emparelhada 100 pb
Telemóvel GSM4116221 SRR10261604 WT_Thymus_1 Tipo selvagem Rep 1 Timo Extremidade emparelhada 100 pb
Telemóvel GSM4116222 SRR10261605 WT_Thymus_2 Tipo selvagem Rep 2 Timo Extremidade emparelhada 100 pb
Telemóvel GSM4116223 SRR10261606 WT_Thymus_3 Tipo selvagem Rep 3 Timo Extremidade emparelhada 100 pb
3P-Seq Mensagem GSM1480973 SRR1553129 WT_1 Tipo selvagem (WT) Rep 1 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Telemóvel 1480974 SRR1553130 WT_2 Tipo selvagem (WT) Rep 2 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Telemóvel 1480975 SRR1553131 DKO_1 Mbnl 1/2 nocaute duplo (DKO) Rep 1 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Mensagem GSM1480976 SRR1553132 DKO_2 Mbnl 1/2 nocaute duplo (DKO) Rep 2 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Telemóvel 1480977 SRR1553133 DKOsiRNA_1 Mbnl 1/2 nocaute duplo com Mbnl 3 siRNA (KD) Rep 1 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Telemóvel 1480978 SRR1553134 DKOsiRNA_2 Mbnl 1/2 nocaute duplo com Mbnl 3 siRNA (KD) Rep 2 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 36 pb
Telemóvel 1480979 SRR1553135 DKONTsiRNA_1 Mbnl 1/2 nocaute duplo com siRNA não direcionado (Ctrl) Rep 1 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb
Telemóvel 1480980 SRR1553136 DKONTsiRNA_2 Mbnl 1/2 nocaute duplo com siRNA não direcionado (Ctrl) Rep 2 Fibroblastos embrionários de camundongos (MEFs) Extremidade única 40 pb

Tabela 1. Resumo dos conjuntos de dados de RNA-Seq e PolyA-seq utilizados para a análise.

Protocol

1. Instalação de ferramentas e pacotes R utilizados na análise Conda é um gerenciador de pacotes popular e flexível que permite a instalação conveniente de pacotes com suas dependências em todas as plataformas. Use ‘Anaconda’ (gerenciador de pacotes conda) para instalar ‘conda’, que pode ser usado para instalar as ferramentas/pacotes necessários para a análise. Baixe ‘Anaconda’ de acordo com os requisitos do sistema de https://www.anaconda.com/products/individual#Downloads e i…

Representative Results

Depois de executar o fluxo de trabalho passo a passo acima, as saídas de análise AS e APA e os resultados representativos estão na forma de tabelas e gráficos de dados, gerados da seguinte maneira. COMO:O principal resultado da análise AS (Tabela Suplementar 1 para diffSplice; Tabela 2 para DEXSeq) é uma lista de éxons mostrando o uso diferencial entre as condições, e uma lista de genes mostrando atividade de splicing global signi…

Discussion

Neste estudo, avaliamos abordagens baseadas em éxons e eventos para detectar EA e APA em dados de RNA-Seq e sequenciamento final de 3′. As abordagens AS baseadas em éxons produzem uma lista de éxons diferencialmente expressos e uma classificação em nível de gene ordenada pela significância estatística da atividade de splicing diferencial geral em nível de gene (Tabelas 1-2, 4-5). Para o pacote diffSplice, o uso diferencial é determinado pelo ajuste de modelos lineares ponderados em um nível de…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Este estudo foi apoiado por um Conselho Australiano de Pesquisa (ARC) Future Fellowship (FT16010043) e ANU Futures Scheme.

Materials

Not relevent for computational study

Riferimenti

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3′ end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, 19-21 (2010).
  18. Tange, O. . GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  20. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  21. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  22. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  23. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  24. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  26. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  27. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  28. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  29. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  30. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  31. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  32. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  33. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).
check_url/it/62636?article_type=t

Play Video

Citazione di questo articolo
Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

View Video