ERRATUM NOTICE
Important: There has been an erratum issued for this article. Read more …
Summary
通过运行路径关联研究工具 (PAST),无论是通过闪亮应用还是通过 R 控制台,研究人员可以通过调查所涉及的代谢途径,更深入地了解其全基因组关联研究 (GWAS) 结果的生物学意义。
Abstract
最近,一项使用代谢通路分析来解释全基因组关联研究(GWAS)数据的先前描述方法的新实施已经开发并发布。路径关联研究工具 (PAST) 旨在解决用户友好性和运行缓慢分析的问题。这种新的用户友好型工具已在生物导体和 Github 上发布。在测试中,PAST 在不到一小时的时间内进行了分析,而之前需要 24 小时或更长时间。在本文中,我们提出了使用闪亮应用程序或 R 控制台运行过去的协议。
Introduction
全基因组关联研究(GWAS)是研究复杂特征及其相关的基因组区域1,2,3的流行方法。在这类研究中,对数十万个单核苷酸多态性(SNP)标记进行了测试,以测试它们与特性的关系,并评估这些关联的重要性。符合错误发现率 (FDR) 阈值 (或某些其他类型的意义阈值) 的标记特征关联保留用于研究,但可能筛选出真正的关联。对于复杂的多基因特征,每个基因的效果可能很小(因此被过滤掉),并且一些等位基因只在研究3中可能不存在的特定条件下表达。因此,虽然许多 SNP 可能保留为与特征相关联,但每个 SNP 的效果可能非常小。将缺少太多的 SNP 呼叫,对特征的生物学意义和遗传结构的解释可能不完整和混乱。代谢途径分析可以帮助解决其中一些问题,通过专注于基因的综合效应,根据其生物功能4,5,6分组。
若干研究是使用本文中描述的方法的先前实施完成的。黄曲霉毒素积累7,玉米耳虫耐药性8,油生物合成9 都与以前的实施研究。虽然这些分析是成功的,但分析过程复杂、耗时且繁琐,因为分析工具是以 R、Perl 和 Bash 的组合编写的,而且管道没有自动化。由于每次分析都需要修改此方法所需的专业知识,现已开发出一种可以与其他研究人员共享的新方法。
路径协会学习工具(PAST)10 旨在通过减少编程语言知识并在较短的时间内运行分析来解决以前方法的缺点。虽然该方法是用玉米测试的,但 PAST 没有做出任何特定物种的假设。过去可以通过 R 控制台运行, 作为一个闪亮的应用程序, 和在线版本预计将很快在 Maizegdb 上可用。
Protocol
1. 设置
- 安装 R(如果尚未安装)。
注:过去是用 R 书写的,因此要求其用户安装 R。在本文编写时,直接从生物导体安装 PAST 需要 R4.0。 旧版本的 PAST 可以从生物导体安装 R3.6,也可以从 Github 为 R3.5 用户安装 PAST。可以从以下链接下载 R 安装说明:https://www.r-project.org/。 - 安装最新版本的 RStudio 桌面或更新 RStudio(可选)。
注:RStudio 是一个有用的环境,用于与 R 语言配合工作。建议安装它,特别是对于那些谁选择运行过去在指挥线,而不是通过闪亮的GUI应用程序。RStudio 及其安装说明可在以下链接找到:https://rstudio.com/products/rstudio/。 - 按照生物导管说明从生物导体11 安装 PAST。
注:通过生物导体安装应处理 PAST 依赖装置的安装。此外,PAST 可以从 Github12安装,但从 Github 安装不会自动安装依赖性。 - 安装过去闪亮 (可选) 。下载文件"应用程序。R"来自 Github 存储库的发布页面:https://github.com/IGBB/PAST/releases/,并记住下载的文件的位置。
注:过去可以通过直接调用 R 的方法来使用,但不太熟悉 R 的用户可以运行"过去闪亮"应用程序,该应用程序提供引导用户界面。过去闪亮是过去 Github 存储库的 shiny_app 分支中可用的 R 脚本。过去闪亮将尝试在第一次运行期间安装其依赖性。 - 开始分析,以以下三种方式之一开始应用。
- 过去闪亮与斯图迪奥
- 使用 RStudio,在应用所在的文件夹中创建一个新项目。R 位于。单击 文件|新项目 并选择该文件夹。
- 一旦创建了新项目,打开应用程序。较早下载的 R 文件。RStudio 识别该应用程序。R 是一个闪亮的应用程序,并在显示的源代码上方的条形图上创建 一个运行应用 按钮。单击 运行应用程序。然后,RStudio 将启动一个窗口,显示过去闪亮的应用程序。
- 过去闪亮与 R 控制台
- 启动 R 并运行以下代码以启动"过去闪亮"应用程序:闪 亮::运行应用("路径/到/文件夹/有/闪亮/应用"。R'.将引号中的文本替换为该应用的文件夹。R 被下载,并保留报价。
- 过去没有 R 闪亮
- 在 R 控制台中运行 库(过去) 以加载过去。
- 过去闪亮与斯图迪奥
2. 自定义闪亮分析(可选)
- 将分析标题从"新分析"更改为更好地反映正在运行的分析类型,这有助于跟踪多个分析(见图 1)。
图1。 请点击这里查看此图的较大版本。
- 修改内核数量和模式。将内核数设置为机器上 1 之间的任意数量,但请注意,将更多资源投入 PAST 可能会减慢机器上的其他操作速度。根据第 6 节中的描述设置模式。
3. 加载 GWAS 数据
注:验证 GWAS 数据是否已划定标签。确保关联文件包含以下列:特征、标记名称、位置或染色体、染色体上的位置、p 值和标记的 R2 值。确保效果文件包含以下列:特征、标记名称、位置或染色体、染色体上的位置和效果。这些列的顺序并不重要,因为用户在加载数据时可以指定列的名称。忽略任何额外的列。TASSEL13 可用于生成这些文件。
- 加载 GWAS 数据与过去闪亮。
- 使用关联文件和效果文件选择框选择 关联文件 和 效果文件 。更改文件选择框下方 的关联列名称 和 效果列名称 输入框中的列名,以反映数据中的列名。
- 在 R 控制台中将 GWAS 数据与过去加载。
- 修改并运行以下代码:
gwas_data = load_GWAS_data ("路径/到/association_file.tsv"," 路径/到/effects_file.tsv", association_columns = c ("特蕾特", "标记", "Locus", "网站", "p", "marker_R2"), effects_columns = c ("Trait", "标记", "Locus", "网站", "效果")
- 修改并运行以下代码:
- 注意:将路径更改为 GWAS 文件的实际位置。为association_columns和effects_columns提供的值是默认值。如果名称与默认值不匹配,请指定列名称。否则,这些可以省略。
4. 负载链接不平衡 (LD) 数据
注:验证链接不平衡 (LD) 数据是否被标签划定,并包含以下类型的数据:Locus、位置 1、站点 1、位置 2、站点 2、位置 1 和位置 2 之间的基数对距离以及 R2 值。
- 加载 LD 数据与过去闪亮。
- 选择包含 LD 数据的文件。如有必要,请更改文件选择框下方 的 LD 列名 输入框中的列名,以匹配 LD 数据中的列名。
图3. 请点击这里查看此图的较大版本。
- 在 R 控制台中将 LD 数据与过去加载。
- 修改并运行以下代码以加载 LD 数据:
LD = load_LD("路径/到/LD.tsv",LD_columns = c("Locus1"、"位置1"、"位置1"、"位置2"、"站点2"、"Dist_bp"、"R.2")
注:更改路径到 LD 文件的实际位置。为LD_columns提供的值是默认值。如果名称与这些默认值不匹配,请指定列的正确名称:否则,这些可以省略。
- 修改并运行以下代码以加载 LD 数据:
5. 将 SNPs 分配给基因
注:以 GFF 格式下载或以其他方式定位注释。这些注释通常可以在特定生物体的在线数据库中找到。对低质量注释要谨慎,因为注释数据的质量会影响路径分析的质量。确认这些注释(染色体)的第一列与关联、效果和 LD 数据中的色谱/染色体格式相匹配。例如,如果 GWAS 和 LD 数据文件调用第一染色体"1",则注释不应调用第一染色体"chr1"。
- 将 SNPs 分配给具有过去闪亮的基因。
注:有关确定适当R2 截止的更多信息,请见唐等人,在名为"SNP到基因算法进行通路分析"的部分。- 选择包含 GFF 注释的文件。考虑哪个窗口大小和 R2 截止最适合正在考虑的物种,如果默认值不适合上传的数据,请修改。
注:过去默认值主要反映适合玉米的值。此步骤中使用过去闪亮分析开始时设置的内核数(步骤 2.2)。
- 选择包含 GFF 注释的文件。考虑哪个窗口大小和 R2 截止最适合正在考虑的物种,如果默认值不适合上传的数据,请修改。
图4. 请点击这里查看此图的较大版本。
- 将 SNP 分配给 R 控制台中带有过去的基因。
- 修改并运行以下代码,将 SNPs 分配给基因:
基因 = assign_SNPs_to_genes (gwas_data, LD, "路径/到/注释.gff", c ("基因"), 1000, 0.8, 2)
注:在此示例代码中,提供了几个默认建议:1000 是 SNP 周围搜索基因的窗口大小;0.8 是 R2的截止值:2 是用于并行处理的核心数。注释的路径也应更改为注释文件的实际位置。
- 修改并运行以下代码,将 SNPs 分配给基因:
6. 发现重要途径
注:验证通路文件是否包含以下数据,以标签划定格式显示,每个通路中每个基因有一行:通路 ID - 标识符,如"PWY-6475-1":通路描述 - 更长的路径描述,如"跨番茄红素生物合成";基因 - 通路中的基因,应与注释中提供的名称相匹配。路径信息可能在特定生物体的在线数据库中找到,例如 MaizeGDB。第二个用户指定的选项是模式。"增加"是指反映测量特征增加值时(如产量)的表型,而"增量"是指测量值下降有益的特征,如昆虫损害等级。路径的意义是使用先前描述的方法4,6,14测试。
- 发现与过去闪亮的重要路径。
- 选择包含路径数据的文件,并确保在分析选项中选择该模式。如有必要,更改必须保留该基因的基因数量,以便进行分析,以及用于创建空分布的排列数,以测试效果的重要性。
图5。 请单击此处查看此图的较大版本。
注:此步骤中使用过去闪亮分析开始时设置的内核数和模式(步骤 2.2)。基因的默认数量目前设定为5个基因,因此已知基因较少的通路将被移除。用户可以将此值降低到 4 或 3,以包含较短的通路,但这样做可能会产生误报结果。增加此值可以增加分析的功率,但会从分析中删除更多路径。更改使用的排列次数会增加和降低测试的功率。
- 在 R 控制台中发现具有过去的重要路径。
- 修改并运行以下代码以发现重要路径:
rugplots_data <-find_pathway_significance(基因,"路径/到/路径.tsv",5,"增加",1000,2)
注:在此示例代码中,提供了多个建议的默认值。5是必须处于通路中的基因的最小数量,为了在分析中保持通路,增加是指测量特征的数量增加(建议用户无论特征如何,都同时运行增减;数据解释对两者不同),1000 是样本效果以确定空分布的次数, 2 是用于并行处理的核心数。将路径更改为路径文件的实际位置。
- 修改并运行以下代码以发现重要路径:
7. 查看鲁格普洛特
- 查看具有过去闪亮的 Rugplots。
- 一旦所有输入上传和设置,单击 开始分析。将出现一个进度栏,并指示分析的最后完成步骤。分析完成后,PAST 闪亮将切换到结果选项卡。结果表将显示在左列(标记为"路径"),Rugplots 将显示在右列(标记为"图")中。
- 使用滑块来控制过滤参数。当过滤级别令人满意时,单击左下角的 下载结果 按钮,将所有图像和表格单独下载到带有分析标题的 ZIP 文件。此 ZIP 文件包含过滤表、未经过滤的表以及过滤表中每个路径的一张图像。
图6. 请点击这里查看此图的较大版本。
图7。 请点击这里查看此图的较大版本。
- 在 R 控制台中查看带有过去的 Rugplots
- 修改并运行以下代码以保存结果:
plot_pathways(rugplots_data,"价值",0.02,"增加","output_folder")
注:在此示例代码中,提供了多个建议的默认值。pvalue 提供的数据,可用于在用户选择重要阈值后过滤微不足道的路径:0.02 是过滤中使用的默认值,增加是指测量特征的增加量(建议用户无论其特征如何,都同时运行增减:但两者的数据解释会有所不同):output_folder是写图像和表格的文件夹(此文件夹必须在运行功能之前存在)。过滤结果表、未经过滤的结果以及过滤结果中每个路径的单个图像都写到此文件夹中。
- 修改并运行以下代码以保存结果:
Representative Results
如果在 PAST 软件工具运行后未生成结果,请检查以确保所有输入文件都格式正确。图 8显示,使用过去包装中的示例数据(基于谷物颜色的玉米 GWAS)成功运行。此表和生成的图像可以使用下载结果按钮下载。下载图像示例显示在 图 210中。不正确的设置可能导致不有意义的结果,但确定错误必须由研究人员决定,研究人员应仔细检查所选设置的有效性,并考虑所有已知有关兴趣特性的证据。
图910 显示了从GWAS结果的通路分析中产生的绒毛,该结果是由288条近亲繁殖线组成的玉米板,这些线条是为谷物颜色而表型的。这个简单化的例子,其中表型是"白色"或"黄色",被使用,因为负责创建明亮的黄色类胡萝卜素颜料的途径是众所周知的,应该负责大多数表型。因此,我们希望看到跨番茄红素生物合成途径(产生类胡萝卜素)与谷物颜色显著相关,这是。路径 ID 和名称列在图表顶部。该图的水平轴对分析中包含的所有基因进行排名,从左到右排列,按对特征的最大影响到最小的顺序排列。然而,只有跨番茄红素生物合成通路中的基因被标记(在图表的顶部,作为孵化标记,出现在其作用的基因排名与分析中的所有其他基因相比)。这道途径有7个基因。运行增富分数 (ES) 沿垂直轴绘制。每个基因的ES按效果顺序添加到运行总数中,并且总数根据分析的基因数量进行调整。因此,分数随着一个人沿着水平轴移动而变化,并且随着更大的效果基因的加入而增加,但在某些时候,效果的增加比添加另一个基因的调整要小,并且整个分数开始下降。运行 ES 线的顶点标有虚点垂直线;这是整个路径的 ES,程序用于确定路径是否被选择并作为 rugplot 呈现。
图8:完成过去闪亮的运行。请点击这里查看此图的较大版本。
图9: 路径图像从完成运行过去(或从闪亮下载)。 这个数字是从色雷斯等人10中引用的。 请单击此处查看此图的较大版本。
Discussion
PAST 的主要目标是将 GWAS 数据的代谢通路分析带给更广泛的受众,尤其是非人类和非动物生物体。过去替代方法通常是以人类或动物为重点的指挥线程序。用户友好性是 PAST 开发的首要目标,无论是选择开发闪亮应用程序还是选择使用 R 和 Bio 导体来发布应用程序。用户不需要学习如何编译程序来使用 PAST。
与大多数类型的分析软件一样,PAST 的结果仅与输入数据一样好:如果输入数据有错误或格式错误,PAST 将无法运行或产生不知情的结果。确保 GWAS 数据、LD 数据、注释和路径文件正确格式化对于接收来自 PAST 的正确输出至关重要。PAST 仅分析双过敏标记,并且只能运行每组输入数据的一个特征。此外,由不良基因型或不正确或不精确表型产生的 GWAS 数据也不太可能产生清晰或可重复的结果。PAST 有助于对 GWAS 结果进行生物解释,但如果环境变化、实验错误或人口结构没有正确解释,则不太可能澄清混乱的数据集。
用户可以选择更改分析的某些参数,无论是在闪亮应用程序中,还是通过将这些参数传递到 PAST 在 R 控制台中的功能。这些参数可以更改 PAST 报告的结果,用户在从默认值中修改这些参数时应小心谨慎。由于 LD 由用户测量,通常使用 GWAS 中也使用的相同标记数据集,因此 LD 测量是针对人群的。对于所有研究,特别是玉米以外的物种(特别是自授粉、多倍体或高度异质物种),默认物种的变化可能是合理的。
Disclosures
作者没有什么可透露的。
Acknowledgments
没有。
Materials
Name | Company | Catalog Number | Comments |
Computer | NA | NA | Any computer with 8GB RAM should be sufficient |
R | R Project | NA | R 4.0 or greater is required to install from Bioconductor 3.11 |
References
- Rafalski, J.
Association genetics in crop improvement. Current Opinion in Plant Biology. 13 (2), 174-180 (2010). - Yan, J., Warburton, M., Crouch, J. Association Mapping for Enhancing Maize (Zea mays L.) Genetic Improvement. Crop Science. 51 (2), 433-449 (2011).
- Xiao, Y., Liu, H., Wu, L., Warburton, M., Yan, J. Genome-wide Association Studies in Maize: Praise and Stargaze. Molecular Plant. 10 (3), 359-374 (2017).
- Wang, K., Li, M., Bucan, M. Pathway-Based Approaches for Analysis of Genomewide Association Studies. The American Journal of Human Genetics. 81 (6), 1278-1283 (2007).
- Weng, L., et al. SNP-based pathway enrichment analysis for genome-wide association studies. BMC Bioinformatics. 12 (1), 99 (2011).
- Tang, J., Perkins, A., Williams, W., Warburton, M. Using genome-wide associations to identify metabolic pathways involved in maize aflatoxin accumulation resistance. BMC Genomics. 16 (1), 673 (2015).
- Warburton, M., et al. Genome-Wide Association Mapping of Aspergillus flavus and Aflatoxin Accumulation Resistance in Maize. Crop Science. 55 (5), 1857-1867 (2015).
- Warburton, M., et al. Genome-Wide Association and Metabolic Pathway Analysis of Corn Earworm Resistance in Maize. The Plant Genome. 11 (1), 170069 (2018).
- Li, H., Thrash, A., Tang, J., He, L., Yan, J., Warburton, M. Leveraging GWAS data to identify metabolic pathways and networks involved in maize lipid biosynthesis. The Plant Journal. 98 (5), 853-863 (2019).
- Thrash, A., Tang, J., DeOrnellis, M., Peterson, D., Warburton, M. PAST: The Pathway Association Studies Tool to Infer Biological Meaning from GWAS Datasets. Plants. 9 (1), 58 (2020).
- Adam, T., Mason, D. PAST: Pathway Association Study Tool (PAST). Bioconductor version: Release (3.10). , (2020).
- Thrash, A., DeOrnellis, M. IGBB/PAST. , at https://github.com/IGBB/PAST (2019).
- Bradbury, P., et al. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 23 (19), 2633-2635 (2007).
- Subramanian, A., et al. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences U.S.A. 102, 15545-15550 (2005).
Tags
遗传学, 第 161 期, 全基因组关联分析, GWAS, 代谢通路分析, 数据解释, 软件, R, 生物导体Erratum
Formal Correction: Erratum: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information
Posted by JoVE Editors on 10/08/2021.
Citeable Link.
An erratum was issued for: A Pathway Association Study Tool for GWAS Analyses of Metabolic Pathway Information. One of the affiliations was updated.
The second affiliation was updated from:
USDA-ARS Corn Host Plant Resistance Research Unit, Mississippi State University
to:
Corn Host Plant Resistance Research Unit, USDA-ARS