Summary

Identification d’un épissage alternatif et d’une polyadénylation dans les données de séquençage de l’ARN

Published: June 24, 2021
doi:

Summary

L’épissage alternatif (AS) et la polyadénylation alternative (APA) élargissent la diversité des isoformes de transcrits et de leurs produits. Ici, nous décrivons des protocoles bioinformatiques pour analyser les tests de séquençage d’ARN en vrac et de séquençage à 3′ pour détecter et visualiser l’AS et l’APA variant selon les conditions expérimentales.

Abstract

En plus de l’analyse typique du RNA-Seq pour mesurer l’expression génique différentielle (DGE) dans des conditions expérimentales / biologiques, les données RNA-seq peuvent également être utilisées pour explorer d’autres mécanismes de régulation complexes au niveau de l’exon. L’épissage alternatif et la polyadénylation jouent un rôle crucial dans la diversité fonctionnelle d’un gène en générant différentes isoformes pour réguler l’expression génique au niveau post-transcriptionnel, et limiter les analyses à l’ensemble du niveau du gène peut manquer cette couche régulatrice importante. Ici, nous démontrons des analyses détaillées étape par étape pour l’identification et la visualisation de l’utilisation différentielle des exons et des sites de polyadénylation dans toutes les conditions, en utilisant Bioconductor et d’autres packages et fonctions, y compris DEXSeq, diffSplice du package Limma et rMATS.

Introduction

Le séquençage de l’ARN a été largement utilisé au fil des ans, généralement pour estimer l’expression différentielle des gènes et la découverte de gènes1. En outre, il peut également être utilisé pour estimer l’utilisation variable du niveau d’exon en raison de l’expression de gènes différentes isoformes, contribuant ainsi à une meilleure compréhension de la régulation des gènes au niveau post-transcriptionnel. La majorité des gènes eucaryotes génèrent différentes isoformes par épissage alternatif (AS) pour augmenter la diversité de l’expression de l’ARNm. Les événements AS peuvent être divisés en différents modèles: saut d’exons complets (SE) où un exon (« cassette ») est complètement retiré de la transcription avec ses introns flanquants; sélection alternative (donneur) du site d’épissage 5′ (A5SS) et alternative 3′ (accepteur) sélection du site d’épissage (A3SS) lorsque deux sites d’épissage ou plus sont présents à chaque extrémité d’un exon; rétention d’introns (RI) lorsqu’un intron est retenu dans le transcrit d’ARNm mature et exclusion mutuelle de l’utilisation d’exons (MXE) où un seul des deux exons disponibles peut être retenu à la fois 2,3. La polyadénylation alternative (APA) joue également un rôle important dans la régulation de l’expression génique en utilisant des sites poly (A) alternatifs pour générer plusieurs isoformes d’ARNm à partir d’un seul transcrit4. La plupart des sites de polyadénylation (pA) sont situés dans la région 3′ non traduite (3′ UTR), générant des isoformes d’ARNm avec diverses longueurs 3′ UTR. Comme l’UTR 3′ est le centre central pour la reconnaissance des éléments régulateurs, différentes longueurs 3′ UTR peuvent affecter la localisation, la stabilité et la traduction de l’ARNm5. Il existe une classe de tests de séquençage d’extrémité 3′ optimisés pour détecter l’APA qui diffèrent dans les détails du protocole6. Le pipeline décrit ici est conçu pour PolyA-seq, mais peut être adapté à d’autres protocoles comme décrit.

Dans cette étude, nous présentons un pipeline de méthodes d’analyse différentielledes exons 7,8 (Figure 1), qui peuvent être divisées en deux grandes catégories : basées sur les exons (DEXSeq9, diffSplice10) et basées sur les événements (analyse multivariée répliquée de l’épissage des transcriptions (rMATS)11). Les méthodes basées sur les exons comparent le changement de pli entre les conditions des exons individuels, à une mesure du changement global du pli des gènes pour appeler l’utilisation d’exons exprimée différentiellement, et à partir de là, calculez une mesure au niveau du gène de l’activité SA. Les méthodes basées sur les événements utilisent des lectures de jonction couvrant exon-intron pour détecter et classer des événements d’épissage spécifiques tels que le saut d’exon ou la rétention d’introns, et distinguer ces types AS dans la sortie3. Ainsi, ces méthodes fournissent des points de vue complémentaires pour une analyse complète de la SA12,13. Nous avons sélectionné DEXSeq (basé sur le package DESeq214 DGE) et diffSplice (basé sur le package Limma10 DGE) pour l’étude car ils sont parmi les packages les plus largement utilisés pour l’analyse d’épissage différentiel. rMATS a été choisi comme méthode populaire pour l’analyse basée sur les événements. Une autre méthode populaire basée sur les événements est MISO (Mixture of Isoforms)1. Pour l’APA, nous adaptons l’approche basée sur les exons.

Figure 1
Graphique 1. Pipeline d’analyse. Organigramme des étapes utilisées dans l’analyse. Les étapes comprennent : l’obtention des données, l’exécution de contrôles de qualité et d’alignement des lectures, suivis du comptage des lectures à l’aide d’annotations pour les exons, les introns et les sites pA connus, le filtrage pour supprimer les faibles nombres et la normalisation. Les données PolyA-seq ont été analysées pour d’autres sites pA à l’aide des méthodes diffSplice/DEXSeq, le RNA-Seq en vrac a été analysé pour l’épissage alternatif au niveau de l’exon avec les méthodes diffSplice/DEXseq et les événements AS analysés avec rMATS. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Les données RNA-seq utilisées dans cette enquête ont été acquises à partir de Gene Expression Omnibus (GEO) (GSE138691)15. Nous avons utilisé les données de séquençage de l’ARN de souris de cette étude avec deux groupes de conditions : le type sauvage (WT) et le knockout de type 1 de type Muscleblind (Mbnl1 KO) avec trois réplications chacun. Pour démontrer l’analyse différentielle de l’utilisation du site de polyadénylation, nous avons obtenu des données PolyA-seq sur des fibroblastes embryonnaires de souris (MEF) (GEO Accession GSE60487)16. Les données comportent quatre groupes de conditions : Wild-type (WT), Muscleblind-like type1/type 2 double knockout (Mbnl1/2 DKO), Mbnl 1/2 DKO avec Mbnl3 knockdown (KD) et Mbnl1/2 DKO avec contrôle Mbnl3 (Ctrl). Chaque groupe de conditions se compose de deux répétitions.

Adhésion GEO Numéro d’exécution SRA Nom de l’échantillon Condition Répliquer Tissu Séquençage Longueur de lecture
RNA-Seq GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Mbnl1 knockout Rép. 1 Thymus Extrémité jumelée 100 pb
GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Mbnl1 knockout Rép. 2 Thymus Extrémité jumelée 100 pb
GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Mbnl1 knockout Rép. 3 Thymus Extrémité jumelée 100 pb
GSM4116221 SRR10261604 WT_Thymus_1 Type sauvage Rép. 1 Thymus Extrémité jumelée 100 pb
GSM4116222 SRR10261605 WT_Thymus_2 Type sauvage Rép. 2 Thymus Extrémité jumelée 100 pb
GSM4116223 SRR10261606 WT_Thymus_3 Type sauvage Rép. 3 Thymus Extrémité jumelée 100 pb
3P-Seq GSM1480973 SRR1553129 WT_1 Type sauvage (WT) Rép. 1 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480974 SRR1553130 WT_2 Type sauvage (WT) Rép. 2 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480975 SRR1553131 DKO_1 Mbnl 1/2 double knockout (DKO) Rép. 1 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480976 SRR1553132 DKO_2 Mbnl 1/2 double knockout (DKO) Rép. 2 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480977 SRR1553133 DKOsiRNA_1 Mbnl 1/2 double knockout avec Mbnl 3 siRNA (KD) Rép. 1 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480978 SRR1553134 DKOsiRNA_2 Mbnl 1/2 double knockout avec Mbnl 3 siRNA (KD) Rép. 2 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 36 pb
GSM1480979 SRR1553135 DKONTsiRNA_1 Mbnl 1/2 double knockout avec siRNA non ciblé (Ctrl) Rép. 1 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb
GSM1480980 SRR1553136 DKONTsiRNA_2 Mbnl 1/2 double knockout avec siRNA non ciblé (Ctrl) Rép. 2 Fibroblastes embryonnaires de souris (MEF) Extrémité unique 40 pb

Tableau 1. Résumé des ensembles de données RNA-Seq et PolyA-seq utilisés pour l’analyse.

Protocol

1. Installation des outils et des packages R utilisés dans l’analyse Conda est un gestionnaire de paquets populaire et flexible qui permet une installation pratique des paquets avec leurs dépendances sur toutes les plates-formes. Utilisez ‘Anaconda’ (gestionnaire de paquets conda) pour installer ‘conda’ qui peut être utilisé pour installer les outils/paquets requis pour l’analyse. Téléchargez ‘Anaconda’ selon la configuration système requise de https://www.anaconda.com/produc…

Representative Results

Après avoir exécuté le flux de travail étape par étape ci-dessus, les résultats d’analyse AS et APA et les résultats représentatifs se présentent sous la forme de tableaux et de diagrammes de données, générés comme suit. COMME:Le principal résultat de l’analyse AS (tableau supplémentaire 1 pour diffSplice; Le tableau 2 pour DEXSeq) est une liste d’exons montrant une utilisation différentielle selon les conditions, et …

Discussion

Dans cette étude, nous avons évalué des approches basées sur les exons et les événements pour détecter l’AS et l’APA dans les données de séquençage massif de l’ARN-Seq et de l’extrémité 3′. Les approches AS basées sur les exons produisent à la fois une liste d’exons exprimés différentiellement et un classement au niveau du gène ordonné en fonction de la signification statistique de l’activité globale d’épissage différentiel au niveau du gène (tableaux 1-2, 4-5). Pour l…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Cette étude a été financée par une bourse Future Fellowship (FT16010043) du Conseil australien de la recherche (ARC) et un programme ANU Futures.

Materials

Not relevent for computational study

References

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3′ end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, 19-21 (2010).
  18. Tange, O. . GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  20. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  21. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  22. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  23. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  24. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  26. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  27. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  28. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  29. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  30. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  31. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  32. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  33. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).
check_url/62636?article_type=t

Play Video

Cite This Article
Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

View Video