Summary

RNA-seqデータにおける選択的スプライシングおよびポリアデニル化の同定(英語)

Published: June 24, 2021
doi:

Summary

選択的スプライシング(AS)および選択的ポリアデニル化(APA)は、転写産物アイソフォームとその産物の多様性を拡大します。ここでは、バルクRNA-seqを分析するためのバイオインフォマティクスプロトコルと、実験条件によって変化するASおよびAPAを検出および視覚化するための3’エンドシーケンシングアッセイについて説明します。

Abstract

実験的/生物学的条件にわたる差次的遺伝子発現(DGE)を測定するためのRNA-Seqの典型的な分析に加えて、RNA-seqデータを利用して、エクソンレベルで他の複雑な調節メカニズムを探索することもできます。選択的スプライシングとポリアデニル化は、転写後レベルで遺伝子発現を調節するための異なるアイソフォームを生成することにより、遺伝子の機能的多様性に重要な役割を果たし、解析を遺伝子レベル全体に限定すると、この重要な調節層を見逃す可能性があります。ここでは、BioconductorおよびDEXSeq、LimmaパッケージのdiffSplice、rMATSなどの他のパッケージと機能を使用して、条件全体でのエクソンおよびポリアデニル化部位の使用状況を識別および視覚化するための詳細なステップバイステップ分析を示します。

Introduction

RNA-seqは、通常、差次的遺伝子発現の推定および遺伝子発見1に広く使用されてきましたまた、異なるアイソフォームを発現する遺伝子によるエクソンレベルの使用状況の推定にも利用でき、転写後レベルでの遺伝子制御の理解に貢献します。真核生物遺伝子の大部分は、選択的スプライシング(AS)によって異なるアイソフォームを生成し、mRNA発現の多様性を高めます。ASイベントは、異なるパターンに分けることができる:完全エクソン(SE)のスキップ(カセット)エクソンが、その隣接するイントロンと共に転写物から完全に除去される。エクソンの両端に2つ以上のスプライス部位が存在する場合の代替(ドナー)5’スプライス部位選択(A5SS)および代替3′(アクセプター)スプライス部位選択(A3SS);イントロンが成熟mRNA転写物内に保持される場合のイントロンの保持(RI)、および一度に2つの利用可能なエクソンのうちの1つだけを保持できるエクソン使用の相互排除(MXE)2,3。代替ポリアデニル化(APA)はまた、単一の転写産物から複数のmRNAアイソフォームを生成する代替ポリ(A)部位を用いて遺伝子発現を調節する上で重要な役割を果たす4。ほとんどのポリアデニル化部位(pA)は3’非翻訳領域(3′ UTR)に位置し、多様な3′ UTR長のmRNAアイソフォームを生成します。3′ UTRは調節要素を認識するための中心的なハブであるため、異なる3′ UTR長はmRNAの局在、安定性および翻訳に影響を与える可能性があります5。プロトコル6の詳細が異なるAPAを検出するために最適化された3’エンドシーケンシングアッセイのクラスがあります。ここで説明するパイプラインはPolyA-seq用に設計されていますが、説明されているように他のプロトコルにも適合させることができます。

本研究では、エクソンベース(DEXSeq9、diffSplice10)とイベントベース(転写産物スプライシングの反復多変量解析(rMATS)11)の2つの大きなカテゴリに分類できる、差動エクソン解析法7,8(図1)のパイプラインを提示します。エクソンベースの方法は、個々のエクソンの条件にわたるフォールド変化を、発現差のあるエクソン使用量を呼び出すための全体的な遺伝子フォールド変化の測定値と比較し、そこからAS活性の遺伝子レベルの測定値を計算します。イベントベースの方法は、エクソン-イントロン-スパニング接合リードを使用して、エクソンスキップやイントロンの保持などの特定のスプライシングイベントを検出および分類し、出力3でこれらのASタイプを区別します。したがって、これらの方法は、AS12,13の完全な分析のための補完的なビューを提供します。DEXSeq(DESeq214 DGEパッケージに基づく)とdiffSplice(Limma10 DGEパッケージに基づく)は、差動スプライシング解析に最も広く使用されているパッケージであるため、研究に選択しました。rMATSは、イベントベースの分析の一般的な方法として選択されました。別の一般的なイベントベースの方法は、MISO(アイソフォームの混合)1です。APAでは、エクソンベースのアプローチを採用しています。

Figure 1
図 1.分析パイプライン。 分析で使用されるステップのフローチャート。手順には、データの取得、品質チェックとリードアライメントの実行、その後の既知のエクソン、イントロン、pAサイトのアノテーションを使用したリードのカウント、低カウントを削除するためのフィルタリング、正規化が含まれます。PolyA-seqデータはdiffSplice/DEXSeq法を用いて代替pA部位について解析し、バルクRNA-SeqはdiffSplice/DEXseq法を用いてエクソンレベルでの選択的スプライシングについて解析し、ASイベントはrMATSを用いて解析した。 この図の拡大版を表示するには、ここをクリックしてください。

本調査で用いたRNA-seqデータは、Gene Expression Omnibus(GEO)(GSE138691)15から取得したものである。この研究のマウスRNA-seqデータを、野生型(WT)とマッスルブラインド様タイプ1ノックアウト(Mbnl1 KO)の2つの条件群で使用し、それぞれ3回の反復を行いました。差的ポリアデニル化部位利用分析を実証するために、マウス胚線維芽細胞(MEF)PolyA-seqデータ(GEOアクセッションGSE60487)16を得た。データには、野生型(WT)、マッスルブラインド様タイプ1/タイプ2ダブルノックアウト(Mbnl1/2 DKO)、Mbnl3ノックダウン(KD)を備えたMbnl 1/2 DKO、およびMbnl3コントロール(Ctrl)を備えたMbnl1/2DKOの4つの条件グループがあります。各条件グループは、2 つの反復で構成されます。

ゲオアクセッション SRA 実行番号 サンプル名 条件 レプリケート 組織 シークエンシング 読み取り長
RNA-シークエンス GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Mbnl1ノックアウト 担当者 1 胸腺 ペアエンド 100 bp
GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Mbnl1ノックアウト 担当者 2 胸腺 ペアエンド 100 bp
GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Mbnl1ノックアウト 担当者 3 胸腺 ペアエンド 100 bp
GSM4116221 SRR10261604 WT_Thymus_1 野生型 担当者 1 胸腺 ペアエンド 100 bp
GSM4116222 SRR10261605 WT_Thymus_2 野生型 担当者 2 胸腺 ペアエンド 100 bp
GSM4116223 SRR10261606 WT_Thymus_3 野生型 担当者 3 胸腺 ペアエンド 100 bp
3P-シーケンセック GSM1480973 SRR1553129 WT_1 野生型(WT) 担当者 1 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480974 SRR1553130 WT_2 野生型(WT) 担当者 2 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480975 SRR1553131 DKO_1 Mbnl 1/2 ダブルノックアウト (DKO) 担当者 1 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480976 SRR1553132 DKO_2 Mbnl 1/2 ダブルノックアウト (DKO) 担当者 2 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480977 SRR1553133 DKOsiRNA_1 Mbnl 1/2 ダブルノックアウト Mbnl 3 siRNA (KD) 担当者 1 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480978 SRR1553134 DKOsiRNA_2 Mbnl 1/2 ダブルノックアウト Mbnl 3 siRNA (KD) 担当者 2 マウス胚性線維芽細胞(MEF) シングルエンド 36 bp
GSM1480979 SRR1553135 DKONTsiRNA_1 Mbnl 1/2 ダブルノックアウトとノンターゲティング siRNA (Ctrl) 担当者 1 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp
GSM1480980 SRR1553136 DKONTsiRNA_2 Mbnl 1/2 ダブルノックアウトとノンターゲティング siRNA (Ctrl) 担当者 2 マウス胚性線維芽細胞(MEF) シングルエンド 40 bp

表 1.解析に使用したRNA-SeqおよびPolyA-Seqデータセットの概要。

Protocol

1. 分析で使用するツールと R パッケージのインストール Condaは、すべてのプラットフォーム間で依存関係を持つパッケージを簡単にインストールできる、人気のある柔軟なパッケージマネージャーです。「アナコンダ」(コンマパッケージマネージャー)を使用して、分析に必要なツール/パッケージをインストールするために使用できる「コンダ」をインストールします。</l…

Representative Results

上記のステップバイステップのワークフローを実行した後、ASおよびAPA分析出力と代表的な結果は、次のように生成されたテーブルとデータプロットの形式になります。 として:AS分析の主な出力(diffSpliceの補足表1;DEXSeq)の表2)は、条件間で異なる使用を示すエクソンのリスト、およびその構成エクソンの1つ以上の有意な全体的な?…

Discussion

この研究では、バルクRNA-Seqおよび3’末端シーケンシングデータからASおよびAPAを検出するためのエクソンベースおよびイベントベースのアプローチを評価しました。エクソンベースのASアプローチは、発現差のあるエクソンのリストと、全体的な遺伝子レベルの差次的スプライシング活性の統計的有意性によって順序付けられた遺伝子レベルのランク付けの両方を生成します(表1-2、4-5</s…

Declarações

The authors have nothing to disclose.

Acknowledgements

この研究は、オーストラリア研究評議会(ARC)のフューチャーフェローシップ(FT16010043)およびANUフューチャースキームの支援を受けました。

Materials

Not relevent for computational study

Referências

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3′ end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, 19-21 (2010).
  18. Tange, O. . GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  20. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  21. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  22. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  23. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  24. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  26. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  27. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  28. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  29. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  30. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  31. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  32. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  33. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).

Play Video

Citar este artigo
Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

View Video