与 DNA 序列数据不同, 表数据并不容易受到基于文本的搜索。这里介绍的程序使用升级版本的 GeNemo, 一个基于网络的生物信息学工具, 进行模式搜索的相似性, 表数据比较可用的在线数据库, 包括百科全书的 DNA 元素与用户的数据。
与针对基因组或 RNA 测序数据的健壮的基于文本的搜索工具相比, 目前用于模式搜索表和其他功能基因组数据的方法非常有限。GeNemo 是第一个完成这个目标的在线搜索工具。用户在浏览器可扩展数据 (床)、峰值和要人格式中输入他们的功能基因组数据, 并可以搜索任何三种格式的数据。用户可以指定要搜索的数据集类型, 从各种在线数据集中进行选择, 并使用 DNA 元素 (编码) 的百科全书表示不同的表标记、转录因子绑定站点和染色质hypersensitivities 或性在特定的细胞类型, 发育阶段或物种 (老鼠或人类)。GeNemo 返回与输入数据匹配的基因组区域列表, 可以在浏览器中查看, 也可在床文件格式中下载。升级后的 GeNemo 改进了图形显示, 具有更强大的界面, 并且由于加利福尼亚大学圣克鲁斯 (UCSC) 基因组浏览器的变化, 不再容易出现错误。讨论常见问题的疑难解答步骤。随着功能基因组数据的数量呈指数级增长, 迫切需要开发和完善新的生物工具, 如 GeNemo 用于数据分析和解释。
最近的技术进步允许快速扩展表或功能基因组数据保存, 这已经超过了相关的分析工具的开发, 以提取生物的洞察力。分析表数据的一个重要方法是搜索用户生成的数据和数据保存, 特别是那些来自 DNA 元素 (编码)1项目的百科全书, 以匹配可能导致新知识的模式。例如, 在基因组中定义的基因座上发现两个不同表标记的相似性, 可能表明不同分子在染色质构象和转录调控上的协调作用2 ,3,4。
传统的基于文本的搜索引擎在这方面是无效的, 因为, 与 DNA 序列不同, 表数据主要存在于强度或功能基因组区域的格式中。GeNemo, 站立为基因尼莫 (在寻找尼莫), 被开发为解决这未满足的需要使用模式搜索5。该算法利用马尔可夫链蒙特卡洛最大化过程5。用户可以从保存处下载自己的数据, 或者从数据库中搜索一组在线表数据, 以确定模式的相似性。
GeNemo 的当前版本有一个更新的显示, 接口更加健壮地与加利福尼亚大学, 圣克鲁斯 (UCSC) 基因组浏览器6, 并且较少易受起因于后者的变动引起的问题。特别是, 虽然 GeNemo 的结果页过去是基于 UCSC 基因组浏览器界面, 当前版本的 GeNemo 支持其自己的结果页面, 因此不再是负面影响的结构变化的 UCSC 基因组浏览器。GeNemo 可以使用任何基因组信号, 包括蛋白质结合, 蛋白修饰, 染色质可及性, 拓扑域等, 作为一个查询, 以寻找 colocalized/类似的片段之间的已知数据集大财团。因此, 研究不同的表数据与大规模基因组项目所产生的已知数据之间的关系是一个重要的工具。
对基因的透彻了解需要达到人类基因组测序的全部潜能, 从而提供新的生物学见解8。目前, 只有通过其数据描述和标题 (即、元数据)1来搜索联机表数据集的方法。这就严重限制了表数据的搜索类型。模式表数据的搜索工具对于探索不同表标记之间的关系至关重要, 这可能导致新的生物学见解。根据数据的内容而不是元数据进行搜索的 GeNemo 是同类的第一个服务, 它将表数据中的模式与已发布的托管库 (如编码数据库) 与用户生成或下载的数据集5进行比较。这标志着表搜索工具的可用性的开始, 这是世界各地的研究人员广泛访问的, 就像基于文本的序列搜索工具在二十世纪九十年代得到广泛应用一样。目前, 除了 GeNemo 以外, 没有其他模式在线搜索工具可供表数据使用。
使用 GeNemo 的一个潜在的例子是搜索 co-appearing 组蛋白修饰和其他表观遗传标记与转录因子 E2F6 在人类胚胎干细胞 (一个例子 E2F6 绑定信号文件是在编码数据门户可用或在https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed)。通过使用此文件作为查询对 H1-hESC 中的所有编码数据集进行搜索, GeNemo 将显示 E2F6 绑定信号与 H3K4me1、H3K4me2、H3K4me3 和 H3K27me3 一起大量丰富, 这与现有的研究表明, E2F6 通过H3K27 的甲基化9。另一方面, 似乎有定位的 E2F6 和 CtBP2 绑定网站, 这是已知的互动与一个因素在同一家庭, E2F710。这些结果为整个基因组反对大量的表观遗传标记, 转录因子结合信号, 和其他信号在编码中可以相当容易地获得与 GeNemo, 这可以提供所有潜在的目标, 进一步分析。
由于第一次发布5 GeNemo 作为基于 web 的表数据搜索工具, 因此 GeNemo 的结果部分已更新为与 GeNemo 的前页具有匹配的外观。旧的结果部分紧密地镜像了 UCSC 的基因组浏览器结果部分, 并且很大程度上依赖于远程 UCSC 服务器的显示。随着新的接口, GeNemo 是更 user-friendly, 不再依赖于 UCSC 基因组服务器 (即使数据仍然是获取远程)。这使得 GeNemo 更健壮, 而且由于 UCSC 服务器上的代码更改而不易受到问题的影响。此外, GeNemo 的新的、更快的聚合物界面为用户提供了更多的工具来可视化和分析数据中的模式。
关键步骤包括提供适当的输入文件和选择要搜索的数据磁道。强烈鼓励用户尝试各种跟踪选择功能, 以熟悉选择过程以及如何将不同的命令组合在一起以实现预期的结果。特别要注意的是, “add” 函数需要添加所选的查询曲目, 而 “过滤器” 或 “排除” 可以分别用作逻辑门命令 “and” 和 “or”。在实现搜索之前, 需要使用 “Update” 函数来影响所有选择。当没有返回结果时, 用户可以检查输入数据文件, 搜索更多的曲目或增加搜索范围。每当出现错误时, 都会弹出一个窗口, 定义错误的确切内容。但也有一些含糊不清的错误。例如, 当窗口表示 “没有上传任何文件” 时, 或者没有上传文件, 或者上载的文件不是可接受的格式, 因此程序无法正确读取。文件上传可接受的文件格式包括床和波峰格式文件的两个上传方法, 和要人的在线链接只上传。这些文件格式的 zip 版本也可以接受。
此方法的当前局限性包括尚未优化算法和在 GeNemo 中使用的函数。GeNemo 还不能就任何返回的数据集的解释提供任何指导。这项任务是由用户, 这需要在生物基因组和基因的重要知识和专长。另外, 当前的另一个限制是用户不能更改搜索的灵敏度和噪音级别。我们希望在未来的模式搜索功能和数据集收集方面继续改进和扩展 GeNemo。
The authors have nothing to disclose.
这项工作得到了 NIH 的资助, 包括来自研究院、R01HG008135 和 NHGRI 的 DP1HD087990。我们感谢中实验室的成员有价值的反馈。
作者投稿:
X.C. 和 A.T.Z. 更新 GeNemo 通过编码新的接口和特点;A.T.Z. 制作了 in-house 样品视频;A.T.Z., 十° C 和深圳写了这篇论文。