最近因为项目的需要,在收集和学习知识图谱方面的知识。今天看到这篇《CoTransH:科技文献知识图谱中语义关系预测的翻译模型》,研读后把相关信息以笔记的形式记录下来。 1,范文信息介绍 标题:CoTransH:科技文献知识图谱中语义关系预测的翻译模型 来源: 陶玥,余丽,吴振新.CoTransH: 科技文献知识图谱中语义关系预测的翻译模 型.情报理论与实践. https://kns.cnki.net/kcms/detail/11.1762.G3.20210624.1817.004.html 作者:陶玥1,2 余丽3,4 吴振新1 作者单位: 1. 中国科学院文献情报中心 2. 中国科学院大学经济与管理学院图书情报与档案管理系 3. 北京理工大学中国工程科技前沿交叉战略研究中心 4. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室 发表时间:2021-06-25 关键词:科技文献知识图谱;知识图谱补全;关系预测;翻译模型; 基金资助: 国家自然科学基金青年科学基金项目“中文网络文本的地理实体语义关系标注与评价”(项目编号:41801320); 资源与环境信息系统国家重点实验室开放基金的研究成果; 摘要: [目的/意义] 科技文献知识图谱对文献语义检索、学术精准推荐、学科智能问答等创新型知识服务具有重要的支撑作用。然而图谱中大量实体缺失链接关系,阻碍了知识服务的升级与改革。翻译模型是知识图谱关系预测的主流方法,但是典型的翻译模型在动态表示、属性区分和文本特征融合等方面能力不足,难以直接应用于科技文献知识图谱关系预测任务中。 [方法/过程]文章提出一种改进的翻译模型CoTransH,实现科技文献知识图谱的语义关系预测。 数据准备层:先综合语步识别、实体抽取、语义相似性度量等技术自动构建关系预测的标注语料库,再融合文本特征和外部先验知识动态生成向量,增强模型在开放世界中的语义表示学习能力; 模型结构层:先引入超平面机制解决多对多关系预测,后加入非线性卷积层区分头尾实体属性,再改进得分函数提高关系的关注度,最后根据语料特征改进负例生成策略,提升模型对关系预测精度。 [结果/结论]使用CoTransH模型构建了以人工智能领域科技文献摘要蕴含的“问题”短语和“方法”短语为节点,“采用”和“解决”关系为边的人工智能领域知识图谱。CoTransH的关系预测F1值,在封闭世界下比典型的翻译模型(TransE, TransH, TransD, KG2E)平均提升12.1%,在开放世界下平均高于TransH模型38.46%。CoTransH可融合实体语义特征和几何特征,实现高效的科技文献知识图谱关系补全。 [局限]本文提出的CoTransH模型尚缺多义关系预测的能力。 2,本范例主要研究方法和相关知识点 2.1,通用知识图谱和行业知识图谱有哪些? 参考《通用知识图谱VS行业知识图谱》,做如下笔记: 知识图谱是Google于2012年提出,用来优化搜索结果。经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。 Google所提出的知识图谱即为通用知识图谱,他是面向全领域的。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。由于它强调的是广度,因而更多的是强调实体,很难生成完整的全局性本体层的统一管理。通用知识图谱包括Freebase,DBpedia和 YAGO等等,一些常见的项目如下图所示: 行业知识图谱 行业知识图谱相对通用知识图谱拥有如下特性: 1. 面向特定领域的知识图谱。 2. 用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。 3. 行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。 4. 有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。 下面是金融行业图谱和企业社交图谱示意图: 2.2 知识图谱关系预测 关系预测(Relation Prediction)是知识图谱补全(Knowledge Graph Completion, KGC) 任务之一,旨在根据给定知识三元组 传统关系预测方法 传统关系预测方法包括规则推理模型(Rule Reasoning)、概率图模型(Probabilistic Graph Model)和图计算模型(Graph Calculation)等。 基于表示学习的关系预测方法 基于表示学习的关系预测方法包括:翻译模型、语义匹配模型、网络表示学习、基于神经网络模型的方法(如基于卷积神经网络的 ConvE和基于图神经网络的 R-GCN等) 2.3 关于构建知识图谱的数据来源 构建知识图谱的基础数据,可以来自与内部数据,行业数据,公开数据。 对于互联网上的公开数据收集,笔者使用GooSeeker网络爬虫软件和GooSeeker快捷采集,不需要了解技术细节,添加要收集的页面网址或关键词即可: |