我们提供了一个协议和相关的编程代码以及元数据示例, 以支持基于云的短语类别关联的自动标识, 该关联代表了生物医学文献中用户选择的知识领域中的独特概念。该协议量化的短语类别关联可促进在选定的知识领域进行深入分析。
生物医学文本数据的迅速积累远远超出了人工策划和分析的人的能力, 因此需要新的文本挖掘工具从大量科学报告中提取生物见解。2016年开发的上下文感知语义在线分析处理 (caseolap) 管道通过对文本数据的分析成功地量化了用户定义的短语类别关系。caseolap 有许多生物医学应用。
我们为基于云的环境开发了一个协议, 支持端到端短语挖掘和分析平台。我们的协议包括数据预处理 (例如, 下载、提取和分析文本文档)、使用 elasticsearch 进行索引和搜索、创建名为 “文本多维数据集” 的功能文档结构以及量化短语类别关系使用核心 caseolap 算法。
我们的数据预处理为所有相关文档生成键值映射。对预处理的数据编制索引, 以搜索包括实体在内的文档, 这进一步促进了文本多维数据集的创建和 caseolap 分数计算。利用一系列综合分析, 包括维数约简、聚类、时间和地理分析, 对得到的原始 caseolap 分数进行解释。此外, caseolap 分数用于创建图形数据库, 从而实现文档的语义映射。
caseolap 以准确 (标识关系)、一致 (高度可重现) 和高效的方式 (处理 100, 000篇 wordssec) 定义短语类别关系。按照此协议, 用户可以访问云计算环境, 以支持自己的 caseolap 配置和应用程序。该平台提供了更高的可访问性, 并为生物医学界提供了用于广泛生物医学研究应用的短语挖掘工具。
手动评估数以百万计的文本文件, 用于研究短语类别关联 (例如,年龄组与蛋白质关联) 是无与伦比的, 与自动计算方法提供的效率是无与伦比的。我们要引入基于云的上下文感知语义在线分析处理 (caseolap) 平台, 作为在生物医学环境中自动计算短语类别关联的短语挖掘方法。
caseolap 平台于 2016年1首次定义, 与传统的数据管理和计算方法相比非常高效, 因为它的功能文档管理称为 text-cube2,3, 4, 它分发文档, 同时保持底层层次结构和邻域。它已应用于生物医学研究5中, 用于研究实体类别关联。caseolap 平台由六个主要步骤组成, 包括数据下载和提取、分析、索引、文本多维数据集创建、实体计数和 caseolap 分数计算;这是协议的主要焦点 (图 1, 图 2,表 1).
为了实现 caseolap 算法, 用户设置感兴趣的类别 (例如, 疾病、体征和症状、年龄组、诊断) 和感兴趣的实体 (例如蛋白质、药物)。本文中包含的一个类别的示例是 “年龄组”, 它具有 “婴儿”、”儿童”、”青少年” 和 “成人” 子类别作为文本多维数据集和蛋白质名称 (同义词) 的细胞和缩写作为实体。实施医疗主题标题 (mesh) 是为了检索与定义类别相对应的出版物 (表 2)。msh 描述符按层次结构树结构进行组织, 以允许搜索具有不同特异性级别的出版物 (如图 3所示的示例)。caseolap 平台利用数据索引和搜索功能来管理与实体相关的文档, 从而进一步促进文档到实体计数映射和 caseolap 分数计算。
caseolap 分数计算的详细信息可在以前的出版物1,5中找到。此分数是使用基于基础文本多维数据集文档结构的特定排名标准计算的。最终的分数是诚信、大众化和独特性的产物。完整性描述了一个代表性实体是否是一个整体语义单元, 它统称为一个有意义的概念。用户定义短语的完整性被认为是 1.0, 因为它在文献中是一个标准短语。与其他单元格相比, 显著性表示文档的一个子集中的短语的相对相关性。它首先通过比较目标数据集中蛋白质名称的出现来计算实体与特定细胞的相关性, 并提供归一化的显著得分。受欢迎程度表示这样一个事实,即受欢迎程度较高的短语在文档的一个子集中出现的频率更高。细胞中罕见的蛋白质名称排名较低, 而提及频率的增加则由于频率对数函数的实现而不断减少。定量测量这三个概念取决于 (1) 实体在单元格和单元之间的术语频率, 以及 (2) 在单元内和整个单元中具有该实体的文档数量 (文档频率)。
我们使用 pubmed 数据集和我们的算法研究了两种具有代表性的场景。我们感兴趣的是线粒体蛋白如何与两个独特的类型的 mesh 描述符联系在一起;”年龄组” 和 “营养和代谢疾病”。具体而言, 我们从 pubmed 收集的20年出版物 (1998年至2018年) 中检索了 15 728, 250 种出版物, 其中 8, 123, 458 本独特的摘要有完整的医疗卫生描述符。因此, 从 uniprot.org (uniprot.org org) 和 mitocart2.0 (http://mitominer.mrc-mbu.cam.ac.uk/release-4.0/begin.do>) 获得的 1, 842个人类线粒体蛋白名称 (包括缩写和同义词) 是系统的检查。他们与这 8, 89, 019 出版物和实体的联系, 使用我们的协议进行了研究;我们构造了一个文本立方体, 并计算了各自的 casolap 分数。
我们已经证明, caseolap 算法可以在大量的文本数据上创建一个基于短语的定量关联到一个基于知识的类别, 以提取有意义的见解。按照我们的协议, 可以构建 caseolap 框架, 以创建所需的文本多维数据集, 并通过 caseolap 分数计算量化实体类别关联。所获得的原始 caseolap 分数可以用来进行综合分析, 包括维数约简、聚类分析、时间和地理分析, 以及创建一个图形数据库, 从而实现文档的语义映射。
算法的适用性.除蛋白质外, 用户定义实体的例子可以是基因名称、药物、具体体征和症状的列表, 包括其缩写和同义词。此外, 有许多选择类别的类别, 以促进特定的用户定义的生物医学分析 (例如, 解剖 [a], 纪律和职业 [h], 现象和过程 [g])。在我们的两个用例中, 所有科学出版物及其文本数据都是利用 pubmed 作为搜索引擎从 medline 数据库中检索的, 这两个数据库都由国家医学图书馆管理。但是, caseolap 平台可应用于包含包含包含文本数据 (如 fda 不良事件报告系统 (faers) 等文本数据的生物医学文档的其他感兴趣的数据库。这是一个开放的数据库, 其中载有关于医疗不良事件和药物错误报告提交给林业发展局的信息。与 medline 和台面不同的是, 医院中含有患者电子健康记录的数据库不对公众开放, 并受到称为 hipaa 的《健康保险可移植性和责任法》的限制。
caseolap 算法已成功应用于不同类型的数据 (例如, 新闻文章)1.该算法于2018年在生物医学文献中实施5。caseolap 算法适用性的要求是, 每个文档都应分配与概念相关的关键字 (例如, 生物医学出版物中的 mesh 描述符、新闻文章中的关键字)。如果找不到关键字, 可以在实现我们的协议之前应用自动生成 6, 7 来收集最具代表性的短语并生成实体列表。我们的协议不提供执行自动生成的步骤。
与其他算法的比较.自2005年以来, 使用 data-cube 8、9、10和 text-cube2、3、4的概念不断演变, 并取得了新的进展, 使数据挖掘更加适用。数据挖掘和商业智能中的联机分析处理 (olap)11、12、13、14、15的概念可以追溯到1993年。通常, olap 会聚合来自多个系统的信息, 并以多维格式存储这些信息。在数据挖掘中实现了不同类型的 olap 系统。例如 (1) 混合事务分析处理 (htap)16、17、(2) 多维 olap (molap)18、19-多维度立方体和 (3) 关系 olap (rolap)20。
具体而言, caseolap 算法与许多现有算法进行了比较, 特别是它们的短语分割增强, 包括 tf-idf + seg、mcx + seg、mcx 和 seg-sase。此外, 还将 rephphrase (rp, 也称为 seg-srase +) 与自身的烧蚀变体进行了比较, 包括 (1) 未纳入完整性措施的 rp (rp no int)、(2) 不纳入流行措施 (rp no pop) 的 rp 和 (3) 不采用纳入了特殊措施 (rp no dis)。试验结果在方波·陶等人的研究中得到了证明。
数据挖掘仍然存在挑战, 这可能会增加保存和检索数据库中的数据的其他功能。上下文感知语义分析处理 (caseolap) 系统地实现了弹性搜索, 以建立一个由数百万个文档组成的索引数据库 (协议 5)。文本多维数据集是在具有用户提供的类别的索引数据上构建的文档结构 (协议 6)。这增强了 Text-Cube 单元内和单元格之间的文档的功能, 并允许我们计算文档上实体的术语频率和特定单元的文档频率 (协议 8)。最后的 caseolap 分数利用这些频率计算来输出最终分数 (协议 9)。2018年, 我们实施了该算法, 研究 ecm 蛋白和六种心脏病, 以分析蛋白质与疾病的关联。这项研究的细节可以在 liem、d. a. 等人的研究中找到.表明 caseolap 可以广泛应用于探索各种疾病和机制的生物医学界。
算法的限制.短语挖掘本身是一种从文本数据中管理和检索重要概念的技术。虽然发现实体类别关联作为一个数学量 (向量), 这种技术无法计算出极性 (例如, 正或负倾向) 的关联。人们可以利用文本-cude 文档结构与指定的实体和类别建立数据的定量总结, 但不能达到具有微观粒度的定性概念。有些概念从过去到现在都在不断演变。为特定实体类别协会提出的摘要包括整个文献中的所有事件。这可能缺乏创新的世俗传播。今后, 我们计划解决这些限制。
未来的应用.世界上大约90% 的累积数据是在非结构化文本数据中。寻找一个具有代表性的短语和与嵌入在文本中的实体的关系是实施新技术 (如机器学习、信息提取、人工智能) 的一项非常重要的任务。为了使文本数据机可读, 需要在数据库中组织数据, 在数据库中可以实现下一层工具。在未来, 该算法可以成为数据挖掘在信息检索和实体类别关联量化方面发挥更大作用的关键一步。
The authors have nothing to disclose.
这项工作得到了国家心脏、肺和血液研究所的部分支持: r35 hl135772 (至 p. ping);国家普通医学科学研究所: u54 gm114833 (至 p. ping、k. watson 和 w. wang);u54 gm114838 (至 j. han);来自海伦 & 拉里·霍格基金会和 s. setty 博士的礼物;和加州大学洛杉矶分校的 t. c. laubisch 捐赠基金 (到 p. ping)。