Summary

RNA-seq 데이터에서 대체 스플라이싱 및 폴리아데닐화 식별

Published: June 24, 2021
doi:

Summary

대체 스플라이싱(AS) 및 대체 폴리아데닐화(APA)는 전사체 이소형과 그 생성물의 다양성을 확장합니다. 여기에서는 실험 조건에 따라 다양한 AS 및 APA를 검출하고 시각화하기 위해 벌크 RNA-seq 및 3′ 말단 시퀀싱 분석을 분석하는 생물정보학 프로토콜을 설명합니다.

Abstract

실험/생물학적 조건에서 차등 유전자 발현(DGE)을 측정하기 위한 RNA-Seq의 일반적인 분석뿐만 아니라 RNA-seq 데이터를 활용하여 엑손 수준에서 다른 복잡한 조절 메커니즘을 탐색할 수도 있습니다. 대체 스플라이싱 및 폴리아데닐화는 전사 후 수준에서 유전자 발현을 조절하기 위해 다양한 이소형을 생성하여 유전자의 기능적 다양성에 중요한 역할을 하며, 분석을 전체 유전자 수준으로 제한하면 이 중요한 조절 층을 놓칠 수 있습니다. 여기에서는 바이오컨덕터와 DEXSeq, Limma 패키지의 diffSplice 및 rMATS를 포함한 기타 패키지 및 기능을 사용하여 조건에 따른 차등 엑손 및 폴리아데닐화 부위 사용의 식별 및 시각화를 위한 자세한 단계별 분석을 시연합니다.

Introduction

RNA-seq는 일반적으로 차등 유전자 발현 및유전자 발견을 추정하기 위해 수년에 걸쳐 널리 사용되어 왔습니다1. 또한 다양한 이소 형을 발현하는 유전자로 인해 다양한 엑손 수준 사용량을 추정하는 데 활용할 수 있으므로 전사 후 수준에서 유전자 조절을 더 잘 이해하는 데 기여할 수 있습니다. 대부분의 진핵생물 유전자는 mRNA 발현의 다양성을 증가시키기 위해 대안적 스플라이싱(AS)에 의해 상이한 이소형을 생성한다. AS 이벤트는 다른 패턴으로 나눌 수 있습니다 : ( “카세트”) 엑손이 측면 인트론과 함께 전사체에서 완전히 제거되는 완전한 엑손 (SE)의 건너 뛰기; 대안 (공여체) 5′ 스플라이스 부위 선택 (A5SS) 및 대안 3′ (수용체) 스플라이스 부위 선택 (A3SS) 2개 이상의 스플라이스 부위가 엑손의 양쪽 말단에 존재할 때; 인트론이 성숙한 mRNA 전사체 내에 유지되는 경우 인트론(RI)의 유지 및 한 번에 두 개의 사용 가능한 엑손 중 하나만 보유할 수 있는 엑손 사용(MXE)의 상호 배제 2,3. 대안적 폴리아데닐화 (APA)는 또한 단일 전사체로부터 다수의 mRNA 이소형을 생성하기 위해 대안적인 폴리 (A) 부위를 사용하여 유전자 발현을 조절하는데 중요한 역할을한다4. 대부분의 폴리아데닐화 부위 (pAs)는 3′ 비번역 영역 (3′ UTR) 내에 위치하여, 다양한 3′ UTR 길이를 갖는 mRNA 이소형을 생성한다. 3′ UTR이 조절 요소를 인식하기 위한 중앙 허브이기 때문에, 상이한 3′ UTR 길이는 mRNA 국소화, 안정성 및 번역(5)에 영향을 미칠 수 있다. 프로토콜6의 세부 사항에서 다른 APA를 검출하도록 최적화 된 3 ‘최종 시퀀싱 분석의 클래스가 있습니다. 여기에 설명된 파이프라인은 PolyA-seq용으로 설계되었지만 설명된 대로 다른 프로토콜에 맞게 조정할 수 있습니다.

이 연구에서는 차등 엑손 분석 방법7,8(그림 1)의 파이프라인을 제시하며, 이는 엑손 기반(DEXSeq9, diffSplice 10)과 이벤트 기반(전사체 접합의 복제 다변량 분석(rMATS)11)의 두 가지 범주로 나눌 수 있습니다. 엑손 기반 방법은 개별 엑손의 조건에 따른 폴드 변화를 차등적으로 발현된 엑손 사용량을 호출하기 위한 전체 유전자 폴드 변화의 척도와 비교하고, 그로부터 AS 활성의 유전자 수준 측정을 계산합니다. 이벤트 기반 방법은 엑손 인트론 스패닝 접합 읽기를 사용하여 엑손 건너뛰기 또는 인트론 유지와 같은 특정 스플라이싱 이벤트를 감지 및 분류하고 출력3에서 이러한 AS 유형을 구별합니다. 따라서 이러한 방법은 AS12,13의 완전한 분석을위한 보완적인 견해를 제공합니다. DEXSeq(DESeq214 DGE 패키지 기반)와 diffSplice(Limma10 DGE 패키지 기반)는 차동 접합 분석에 가장 널리 사용되는 패키지 중 하나이기 때문에 연구를 위해 선택했습니다. rMATS는 이벤트 기반 분석에 널리 사용되는 방법으로 선택되었습니다. 또 다른 인기 있는 이벤트 기반 방법은 MISO(Mix of Isoforms)1입니다. APA의 경우 엑손 기반 접근 방식을 적용합니다.

Figure 1
그림 1. 분석 파이프라인. 분석에 사용된 단계의 순서도입니다. 단계에는 데이터 획득, 품질 검사 수행 및 읽기 정렬 수행 후 알려진 엑손, 인트론 및 pA 사이트에 대한 주석을 사용하여 읽기 계산, 낮은 카운트 제거 및 정규화를 위한 필터링이 포함됩니다. PolyA-seq 데이터는 diffSplice/DEXSeq 방법을 사용하여 대체 pA 부위에 대해 분석되었고, 벌크 RNA-Seq는 diffSplice/DEXseq 방법을 사용하여 엑손 수준에서 대체 스플라이싱에 대해 분석되었으며, AS 이벤트는 rMATS로 분석되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

이 조사에 사용된 RNA-seq 데이터는 유전자 발현 옴니버스(GEO)(GSE138691)15에서 획득한 것이다. 우리는 이 연구의 마우스 RNA-seq 데이터를 야생형(WT) 및 근맹 유사 유형 1 녹아웃(Mbnl1 KO)의 두 가지 조건 그룹과 함께 각각 3개의 반복으로 사용했습니다. 차등 폴리아데닐화 부위 사용 분석을 입증하기 위해, 마우스 배아 섬유아세포(MEF) PolyA-seq 데이터(GEO Accession GSE60487)16를 얻었다. 데이터에는 야생형(WT), 근맹형 유형 1/유형 2 이중 녹아웃(Mbnl1/2 DKO), Mbnl3 녹다운(KD)이 있는 Mbnl 1/2 DKO 및 Mbnl3 대조군이 있는 Mbnl1/2 DKO(Ctrl)의 네 가지 조건 그룹이 있습니다. 각 조건 그룹은 두 번의 반복실험으로 구성됩니다.

지역 가입 SRA 실행 번호 샘플 이름 조건 복제 조직 시퀀싱 읽기 길이
RNA-서열 GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Mbnl1 녹아웃 담당자 1 흉선 페어링 엔드 100 bp
GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Mbnl1 녹아웃 담당자 2 흉선 페어링 엔드 100 bp
GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Mbnl1 녹아웃 담당자 3 흉선 페어링 엔드 100 bp
GSM4116221 SRR10261604 WT_Thymus_1 와일드 타입 담당자 1 흉선 페어링 엔드 100 bp
GSM4116222 SRR10261605 WT_Thymus_2 와일드 타입 담당자 2 흉선 페어링 엔드 100 bp
GSM4116223 SRR10261606 WT_Thymus_3 와일드 타입 담당자 3 흉선 페어링 엔드 100 bp
3P-시퀀스 GSM1480973 SRR1553129 WT_1 와일드 타입 (WT) 담당자 1 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480974 SRR1553130 WT_2 와일드 타입 (WT) 담당자 2 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480975 SRR1553131 DKO_1 Mbnl 1/2 더블 녹아웃 (DKO) 담당자 1 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480976 SRR1553132 DKO_2 Mbnl 1/2 더블 녹아웃 (DKO) 담당자 2 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480977 SRR1553133 DKOsiRNA_1 Mbnl 3 siRNA (KD)를 사용한 Mbnl 1/2 이중 녹아웃 담당자 1 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480978 SRR1553134 DKOsiRNA_2 Mbnl 3 siRNA (KD)를 사용한 Mbnl 1/2 이중 녹아웃 담당자 2 마우스 배아 섬유아세포(MEF) 단일 종단 36 bp
GSM1480979 SRR1553135 DKONTsiRNA_1 비표적 siRNA를 사용한 Mbnl 1/2 이중 녹아웃(Ctrl) 담당자 1 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp
GSM1480980 SRR1553136 DKONTsiRNA_2 비표적 siRNA를 사용한 Mbnl 1/2 이중 녹아웃(Ctrl) 담당자 2 마우스 배아 섬유아세포(MEF) 단일 종단 40 bp

표 1. 분석에 사용된 RNA-Seq 및 PolyA-seq 데이터 세트의 요약.

Protocol

1. 분석에 사용되는 도구 및 R 패키지 설치 Conda는 모든 플랫폼에서 종속성이 있는 패키지를 편리하게 설치할 수 있는 인기 있고 유연한 패키지 관리자입니다. ‘Anaconda'(conda 패키지 관리자)를 사용하여 분석에 필요한 도구 / 패키지를 설치하는 데 사용할 수있는 ‘conda’를 설치하십시오. https://www.anaconda.com/products/individual#Downloads 에서 시스템 요구 사항에 따라 ‘Anaconda’를 다운?…

Representative Results

위의 단계별 워크플로우를 실행한 후 AS 및 APA 분석 출력과 대표 결과는 다음과 같이 생성된 테이블 및 데이터 플롯 형태입니다. 만큼:AS 분석의 주요 출력(diffSplice에 대한 보충 표 1; DEXSeq)에 대한 표 2는 조건에 따른 차등 용법을 나타내는 엑손의 목록이고, 통계적 유의성에 의해 순위가 매겨진 하나 이상의 구성 엑손의 유의한 전체 스?…

Discussion

이 연구에서는 대량 RNA-Seq 및 3′ 말단 시퀀싱 데이터에서 AS 및 APA를 검출하기 위한 엑손 기반 및 이벤트 기반 접근 방식을 평가했습니다. 엑손 기반 AS 접근법은 차등적으로 발현된 엑손의 목록과 전체 유전자 수준의 차등 스플라이싱 활성의 통계적 유의성에 따라 정렬된 유전자 수준 순위를 모두 생성합니다(표 1-2, 4-5). diffSplice 패키지의 경우, 차등 사용은 엑손 수준에서 가중 선형 모?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 연구는 호주 연구위원회 (ARC) 미래 펠로우십 (FT16010043) 및 ANU 선물 계획의 지원을 받았습니다.

Materials

Not relevent for computational study

References

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3′ end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, 19-21 (2010).
  18. Tange, O. . GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  20. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  21. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  22. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  23. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  24. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  26. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  27. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  28. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  29. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  30. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  31. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  32. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  33. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).

Play Video

Cite This Article
Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

View Video