Summary

使用双快通分析多因子RNA-Seq实验

Published: July 29, 2022
doi:

Summary

DiCoExpress是一种基于脚本的工具,在R中实现,用于执行从质量控制到共表达的RNA-Seq分析。DiCoExpress 可处理多达 2 个生物因素的完整和不平衡设计。本视频教程将指导用户了解 DiCoExpress 的不同功能。

Abstract

在NGS数据分析中正确使用统计建模需要高级专业知识。最近,人们越来越一致地使用广义线性模型对RNA-Seq数据进行差异分析,以及使用混合物模型进行共表达分析的优势。为了提供使用这些建模方法的托管设置,我们开发了DiCoExpress,它提供了一个标准化的R管道来执行RNA-Seq分析。无需任何统计学或R编程方面的特定知识,初学者可以通过基于广义线性模型内对比的差分分析,从质量控制到共表达进行完整的RNA-Seq分析。对差异表达基因列表和共表达基因簇进行了富集分析。本视频教程被设想为一个循序渐进的实验方案,以帮助用户充分利用DiCoExpress及其在增强RNA-Seq实验生物学解释方面的潜力。

Introduction

下一代RNA测序(RNA-Seq)技术现在是转录组分析的金标准1。自该技术早期以来,生物信息学家和生物统计学家的共同努力导致了许多方法的发展,这些方法解决了转录组学分析的所有基本步骤,从映射到转录定量2。今天,生物学家可以使用的大多数工具都是在R软件环境中开发的,用于统计计算和图形3,并且生物导体存储库4中提供了许多用于生物数据分析的软件包。这些软件包提供对分析的全面控制和自定义,但它们的代价是广泛使用命令行界面。由于许多生物学家对“点击式”方法更满意5,RNA-Seq分析的民主化需要开发更用户友好的界面或方案6。例如,可以使用闪亮7 构建 R 包的 Web 界面,并且使用 R-studio8 界面使命令行数据分析更加直观。开发专门的分步教程也可以帮助新用户。特别是,视频教程补充了经典文本教程,从而更深入地了解所有过程步骤。

我们最近开发了DiCoExpress9,这是一种用于分析R中多因素RNA-Seq实验的工具,使用基于中性比较研究10,1112的最佳方法。从计数表开始,DiCoExpress提出了一个数据质量控制步骤,然后使用广义线性模型(GLM)进行差异基因表达分析(edgeR包13),并使用高斯混合模型(coseq包12)生成共表达簇。DiCoExpress可处理多达2个生物因子(即基因型和处理)和一个技术因子(即重复)的完整和不平衡设计。DiCoExpress的独创性在于其存储和组织数据,脚本和结果的目录架构,以及对比度编写的自动化,允许用户在同一统计模型中调查大量问题。还努力提供说明统计结果的图形输出。

迪科快工作区位于 https://forgemia.inra.fr/GNet/dicoexpress。它包含四个目录,两个pdf和两个文本文件。数据/目录包含输入数据集;对于此协议,我们将使用“教程”数据集。源/目录包含执行分析所需的七个 R 函数,用户不得修改。分析是使用存储在 Template_scripts/ 目录中的脚本运行的。该协议中使用的一种称为DiCoExpress_Tutorial_JoVE.R,可以很容易地适应任何转录组学项目。所有结果都写在Results/目录中,并存储在根据项目命名的子目录中。README.md 文件包含有用的安装信息,有关该方法及其用法的任何特定详细信息都可以在 DiCoExpress_Reference_Manual.pdf 文件中找到。

本视频教程将指导用户了解 DiCoExpress 的不同功能,旨在克服生物学家使用基于命令行的工具感到的不情愿。我们在这里介绍一个人工RNA-Seq数据集的分析,该数据集描述了四种基因型的三个生物重复中的基因表达,无论是否经过处理。现在,我们将完成 DiCoExpress 工作流程的不同步骤,如图 1 所示。“协议”部分中描述的脚本和输入文件在网站上可用:https://forgemia.inra.fr/GNet/dicoexpress

准备数据文件
存储在数据/目录中的四个csv文件应根据项目名称命名。因此,在我们的示例中,所有名称都以“教程”开头,我们将在协议的步骤 4 中设置 Project_Name = “教程”。csv 文件中使用的分隔符必须在步骤 4 的 Sep 变量中指示。在我们的“教程”数据集中,分隔符是一个制表。对于高级用户,可以通过提供指令列表和通过 Filter 变量提供新Project_Name,将完整数据集简化为子集。此选项可避免输入文件的冗余副本,并验证 FAIR 原则14

在四个 csv 文件中,只有“计数”和“目标”文件是必需的。它们包含每个基因的原始计数(此处为Tutorial_COUNTS.csv)和实验设计描述(此处为Tutorial_TARGET.csv)。TARGET.csv文件描述了每个样品(每行一个样品)以及每个生物或技术因素(在列中)的模态。我们强烈建议为模式选择的名称以字母开头,而不是以数字开头。无法更改最后一列(“复制”)的名称。最后,示例名称(第一列)必须与 COUNTS.csv 文件标题中的名称匹配(在我们的示例中Genotype1_control_rep1)。仅当用户计划运行扩充分析时,才需要包含每行包含一个Gene_ID和一个注释术语的扩充.csv文件。如果一个基因有几个注释,它们将不得不写在不同的行上。注释.csv文件是可选的,用于在输出文件中添加每个基因的简短描述。获取注释文件的最佳方法是从专用数据库中检索信息(例如,Thalemine:拟南芥的 https://bar.utoronto.ca/thalemine/begin.do)。

迪科快车的安装
迪科快需要特定的R包。使用命令行源 (…/源/Install_Packages.R“) 在 R 控制台中检查所需的包安装状态。对于使用 Linux 的用户,另一种解决方案是安装专用于 DiCoExpress 且可在 https://forgemia.inra.fr/GNet/dicoexpress/container_registry 使用的容器。根据定义,此容器包含 DiCoExpress 以及所需的所有部分,例如库和其他依赖项。

Protocol

1. 迪科快讯 打开 R 工作室会话并将目录设置为Template_scripts。 在 R 工作室中打开DiCoExpress_Tutorial.R 脚本。 使用以下命令在 R 会话中加载 DiCoExpress 函数:>源(“../来源/Load_Functions> Load_Functions()> Data_Directory = “../数据”> Results_Directory = “../结果/” 使用以下命令在 R 会话中加载数据文件:> Project_Name = “教程”>筛选器 = 空> 九月=“\t”> Data_Fil…

Representative Results

所有 DiCoExpress 输出都保存在教程/目录中,该目录本身位于结果/目录中。我们在这里为评估分析的整体质量提供了一些指导。 质量管理位于Quality_Control/目录中的质量控制输出对于验证RNA-Seq分析结果是否可靠至关重要。Data_Quality_Control.pdf文件包含使用原始和规范化数据获得的多个图,可用于识别数据的任何潜在问题。在比较条件内和条件间时,每个样本的总归…

Discussion

由于RNA-Seq已成为生物学研究中无处不在的方法,因此不断需要开发多功能且用户友好的分析工具。大多数分析工作流程中的一个关键步骤通常是自信地识别生物条件和/或治疗之间差异表达的基因15。产生可靠的结果需要适当的统计建模,这一直是DiCoExpress发展的动力。

DiCoExpress是一个在R中实现的基于脚本的工具,旨在帮助生物学家在寻找DEG时充分利用中立?…

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

这项工作主要得到国家情报局(ANR-16-CE20-0009)的支持。作者感谢F.德斯普雷兹建造迪科快的集装箱。知识库工作由未来投资 ANR-10-BTBR-01-01“搞爱”计划提供支持。GQE和IPS2实验室受益于萨克雷植物科学-SPS(ANR-17-EUR-0007)的支持。

Referencias

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. . Shiny: web application framework Available from: https://rdrr.io/cran/shiny/ (2021)
  8. Lambert, I., Roux, C. P. -. L., Colella, S., Martin-Magniette, M. -. L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  9. Dillies, M. -. A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  10. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  11. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  12. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  13. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  14. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).
check_url/es/62566?article_type=t

Play Video

Citar este artículo
Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

View Video