Summary

DiCoExpress를 이용한 다인자 RNA-Seq 실험 분석

Published: July 29, 2022
doi:

Summary

DiCoExpress는 품질 관리에서 공동 발현에 이르기까지 RNA-Seq 분석을 수행하기 위해 R로 구현 된 스크립트 기반 도구입니다. DiCoExpress는 최대 2개의 생물학적 요인까지 완전하고 불균형한 설계를 처리합니다. 이 비디오 자습서는 DiCoExpress의 다양한 기능을 통해 사용자를 안내합니다.

Abstract

NGS 데이터 분석에서 통계 모델링을 적절하게 사용하려면 고급 수준의 전문 지식이 필요합니다. 최근 RNA-Seq 데이터의 차등 분석을 위해 일반화된 선형 모델을 사용하는 것에 대한 공감대가 높아지고 있으며, 공동 발현 분석을 수행하기 위한 혼합물 모델의 이점이 있다. 이러한 모델링 접근 방식을 사용할 수 있는 관리형 설정을 제공하기 위해 RNA-Seq 분석을 수행하기 위해 표준화된 R 파이프라인을 제공하는 DiCoExpress를 개발했습니다. 통계 또는 R 프로그래밍에 대한 특별한 지식이 없으면 초보자는 일반화 된 선형 모델 내부의 대비를 기반으로 한 차등 분석을 통해 품질 관리에서 공동 표현에 이르기까지 완전한 RNA-Seq 분석을 수행 할 수 있습니다. 농축 분석은 차등적으로 발현된 유전자의 목록과 공동-발현된 유전자 클러스터 둘 다에서 제안된다. 이 비디오 튜토리얼은 사용자가 DiCoExpress를 최대한 활용하고 RNA-Seq 실험의 생물학적 해석에 힘을 실어주는 잠재력을 최대한 활용할 수 있도록 도와주는 단계별 프로토콜로 고안되었습니다.

Introduction

차세대 RNA 시퀀싱 (RNA-Seq) 기술은 이제 전사체 분석1의 황금 표준입니다. 이 기술의 초창기부터 생물 정보학자와 생물 통계학자의 공동 노력으로 매핑에서 전사체 정량화에 이르기까지 전사체 분석의 모든 필수 단계를 다루는 수많은 방법이 개발되었습니다2. 오늘날 생물학자가 사용할 수 있는 대부분의 도구는 통계 컴퓨팅 및 그래프3을 위한 R 소프트웨어 환경 내에서 개발되었으며, 생물학적 데이터 분석을 위한 많은 패키지는 Bioconductor 저장소(4)에서 사용할 수 있습니다. 이러한 패키지는 분석을 완벽하게 제어하고 사용자 지정할 수 있지만 명령줄 인터페이스를 광범위하게 사용하는 비용이 듭니다. 많은 생물학자들이 “포인트 앤 클릭” 접근법5에 더 익숙하기 때문에, RNA-Seq 분석의 민주화는 보다 사용자 친화적인 인터페이스 또는 프로토콜6의 개발을 필요로 한다. 예를 들어, Shiny7을 사용하여 R 패키지의 웹 인터페이스를 구축 할 수 있으며 R-studio8 인터페이스로 명령 줄 데이터 분석을보다 직관적으로 수행 할 수 있습니다. 전용 단계별 자습서의 개발은 또한 새로운 사용자를 도울 수 있습니다. 특히 비디오 자습서는 고전적인 텍스트 하나를 보완하여 모든 절차 단계를 더 깊이 이해할 수 있습니다.

우리는 최근 중립 비교 연구10,11,12를 기반으로 가장 좋은 것으로 간주되는 방법을 사용하여 R에서 다인자 RNA-Seq 실험을 분석하는 도구 인 DiCoExpress9를 개발했습니다. 카운트 테이블로부터 시작하여, DiCoExpress는 일반화된 선형 모델(GLM)을 이용한 차등 유전자 발현 분석(edgeR 패키지13) 및 가우시안 혼합물 모델(coseq package12)을 이용한 공동발현 클러스터의 생성에 뒤따르는 데이터 품질 관리 단계를 제안한다. DiCoExpress는 최대 2개의 생물학적 요인(즉, 유전자형 및 치료)과 하나의 기술적 요인(즉, 복제)까지 완전하고 불균형한 설계를 처리합니다. DiCoExpress의 독창성은 데이터, 스크립트 및 결과를 저장 및 구성하는 디렉토리 아키텍처와 사용자가 동일한 통계 모델 내에서 수많은 질문을 조사 할 수 있도록 대비 작성을 자동화하는 데 있습니다. 또한 통계 결과를 보여주는 그래픽 출력을 제공하기 위한 노력도 이루어졌습니다.

DiCoExpress 작업 영역은 https://forgemia.inra.fr/GNet/dicoexpress 에서 사용할 수 있습니다. 여기에는 네 개의 디렉토리, 두 개의 pdf 및 두 개의 텍스트 파일이 포함되어 있습니다. Data/ 디렉토리에는 입력 데이터 세트가 포함되어 있습니다. 이 프로토콜의 경우 “자습서” 데이터 세트를 사용합니다. Sources/ 디렉토리에는 분석을 수행하는 데 필요한 일곱 개의 R 함수가 포함되어 있으며 사용자가 수정해서는 안 됩니다. 분석은 Template_scripts/ 디렉토리에 저장된 스크립트를 사용하여 실행됩니다. 이 프로토콜에 사용되는 것을 DiCoExpress_Tutorial_JoVE.R이라고하며 모든 전사체 프로젝트에 쉽게 적용 할 수 있습니다. 모든 결과는 Results/ 디렉토리에 기록되고 프로젝트에 따라 명명된 서브디렉토리에 저장됩니다. README.md 파일에는 유용한 설치 정보가 포함되어 있으며 메서드 및 사용에 대한 특정 세부 정보는 DiCoExpress_Reference_Manual.pdf 파일에서 찾을 수 있습니다.

이 비디오 자습서는 명령 줄 기반 도구를 사용하여 생물 학자들이 느끼는 꺼림을 극복하기위한 목적으로 DiCoExpress의 다양한 기능을 통해 사용자를 안내합니다. 우리는 치료 유무에 관계없이 네 가지 유전자형의 세 가지 생물학적 반복실험에서 유전자 발현을 설명하는 인공 RNA-Seq 데이터 세트의 분석을 여기에 제시합니다. 이제 그림 1에 나와 있는 DiCoExpress 워크플로의 여러 단계를 살펴보겠습니다. 프로토콜 섹션에 설명된 스크립트와 입력 파일은 사이트에서 사용할 수 있습니다. https://forgemia.inra.fr/GNet/dicoexpress

데이터 파일 준비
Data/ 디렉토리에 저장된 네 개의 csv 파일은 프로젝트 이름에 따라 이름이 지정되어야 합니다. 따라서 이 예제에서는 모든 이름이 “자습서”로 시작하고 프로토콜의 4단계에서 Project_Name = “자습서”로 설정합니다. csv 파일에 사용되는 구분 기호는 4단계의 Sep 변수에 표시되어야 합니다. “자습서” 데이터 집합에서 구분 기호는 집계입니다. 고급 사용자의 경우 Filter 변수를 통해 명령 목록과 새 Project_Name을 제공하여 전체 데이터 세트를 하위 집합으로 줄일 수 있습니다. 이 옵션은 입력 파일의 중복 복사본을 피하고 FAIR 원칙(14)을 검증한다.

네 개의 csv 파일 중에서 COUNTS 및 TARGET 파일만 필수입니다. 그들은 모든 유전자 (여기 Tutorial_COUNTS.csv)와 실험 설계 설명 (여기 Tutorial_TARGET.csv)에 대한 원시 카운트를 포함합니다. TARGET.csv 파일은 모든 샘플(행당 하나의 샘플)을 각 생물학적 또는 기술적 요소(열)에 대한 양식으로 설명합니다. 양식에 대해 선택한 이름은 숫자가 아닌 문자로 시작하는 것이 좋습니다. 마지막 열의 이름(“복제”)은 변경할 수 없습니다. 마지막으로 샘플 이름(첫 번째 열)은 COUNTS.csv 파일 제목의 이름과 일치해야 합니다(이 예에서는 Genotype1_control_rep1). 모든 행에 하나의 .csv과 하나의 주석 용어가 포함된 보강Gene_ID 파일은 사용자가 보강 분석을 실행하려는 경우에만 필요합니다. 한 유전자에 여러 개의 주석이 있으면 다른 줄에 써야합니다. 주석.csv 파일은 선택 사항이며 출력 파일의 모든 유전자에 대한 간단한 설명을 추가하는 데 사용됩니다. 주석 파일을 얻는 가장 좋은 방법은 전용 데이터베이스 (예 : Thalemine : Arabidopsis의 https://bar.utoronto.ca/thalemine/begin.do)에서 정보를 검색하는 것입니다.

디코익스프레스 설치
DiCoExpress에는 특정 R 패키지가 필요합니다. 명령줄 소스(“.. R 콘솔의 /Sources/Install_Packages.R”)을 사용하여 필요한 패키지 설치 상태를 확인합니다. Linux를 사용하는 사용자의 경우 또 다른 해결책은 DiCoExpress 전용 컨테이너를 설치하고 https://forgemia.inra.fr/GNet/dicoexpress/container_registry 에서 사용할 수 있는 컨테이너를 설치하는 것입니다. 정의에 따라 이 컨테이너에는 라이브러리 및 기타 종속성과 같이 필요한 모든 부분이 포함된 DiCoExpress가 포함되어 있습니다.

Protocol

1. 디코익스프레스 R 스튜디오 세션을 열고 디렉터리를 Template_scripts로 설정합니다. R 스튜디오에서 DiCoExpress_Tutorial.R 스크립트를 엽니다. 다음 명령을 사용하여 R 세션에서 DiCoExpress 함수를 로드합니다.> 출처 ( “.. /출처/Load_Functions.R”)> Load_Functions()> Data_Directory = “.. /데이터”> Results_Directory = “.. /결과/” 다음 명령을 사용하여 R 세션에서 데이터 파일을 로드합니…

Representative Results

모든 DiCoExpress 출력은 자습서 / 디렉토리에 저장되며 결과 / 디렉토리 내에 배치됩니다. 여기서는 분석의 전반적인 품질을 평가하기 위한 몇 가지 지침을 제공합니다. 품질 관리Quality_Control/디렉토리에 위치한 품질 관리 출력은 RNA-Seq 분석 결과가 신뢰할 수 있는지 확인하는 데 필수적입니다. Data_Quality_Control.pdf 파일에는 데이터의 잠재적 문제를 식별하는 데 사?…

Discussion

RNA-Seq 는 생물학적 연구에서 유비쿼터스 방법이되기 때문에 다재다능하고 사용자 친화적 인 분석 도구를 개발할 필요성이 끊임없이 있습니다. 대부분의 분석 워크플로우들 내에서 중요한 단계는 종종 생물학적 조건 및/또는 치료법들 사이에서 차별적으로 발현되는 유전자들을 신뢰하며 확인하는 것이다(15). 신뢰할 수 있는 결과를 얻으려면 적절한 통계 모델링이 필요하며, 이?…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

이 작업은 주로 ANR PSYCHE (ANR-16-CE20-0009)에 의해 지원되었습니다. 저자는 DiCoExpress의 컨테이너 건설에 대해 F. Desprez에게 감사드립니다. KB 작업은 미래를 위한 투자 ANR-10-BTBR-01-01 Amaizing 프로그램에 의해 지원됩니다. GQE 및 IPS2 실험실은 Saclay Plant Sciences-SPS (ANR-17-EUR-0007)의 지원을받습니다.

Riferimenti

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Play Video

Citazione di questo articolo
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video