今天研读的这篇范文,标题是:“基于Word2Vec 的医学知识组织系统互操作研究———以词表间语义映射为例”。该范文面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程] 以 《中国中医药学主题词表》TC 类、《中国图书馆分类法》R 类向 《中文医学主题词表》语义映射为例,依靠深度学习工具 Word2Vec 为技术手段,实现了实验对象词条的向量形式转化。 之前在GooSeeker资讯版块,我们已经分享了几篇使用word2vec作为研究手段的范文,同时也在Jupyter Notebook下使用Python进行了word2vec算法的实验: 1. Jupyter Notebook使用gensim做Word2Vec计算 搞研究写论文需要的微博数据使用什么工具来收集? 对于大多数搞研究写论文的同学来说,需要一款使用简单,不需要额外学习,根据简单的指引就可以启动采集获取各种微博数据的微博工具。GooSeeker微博数据采集工具箱很适合同学们搞研究写论文收集微博数据,大量文科同学在通过它收集研究需要的微博博文,微博关键词搜索,微博评论和转发,微博博主详情,微博话题内容,微博粉丝和关注者等数据。我们观察到使用这个工具收集微博数据进行研究的同学数量一直维持在高位,刚刚过去的这个周末,就有不少同学在技术交流群和社区论坛上和我们交流微博工具箱的使用心得。 1,范例简介 标题:基于Word2Vec的医学知识组织系统互操作研究_以词表间语义映射为例 作者:郭思成 李纲 周华阳 武汉大学信息资源研究中心 关键词:医学知识组织系统;互操作;映射;词向量;Word2Vec; 基金资助: 国家自然科学基金重大项目“国家安全大数据综合信息集成与分析方法”的研究成果之一,项目编号:71790612; 摘要: [目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。 [方法/过程]以《中国中医药学主题词表》TC类、《中国图书馆分类法》R类向《中文医学主题词表》语义映射为例,依靠深度学习工具Word2Vec为技术手段,实现了实验对象词条的向量形式转化。在此基础上根据词向量相似度结果与目标词表类目进行自动化匹配筛选,建立映射。 [结果/结论]基于Word2Vec进行的映射能够在一定程度上实现互操作,其思路可为在类似的知识组织系统间建立语义关联时提供参考,在精确性和方法的综合运用上仍存在着提升空间。 文章目录 1 相关研究 2 研究设计 2.1 实验对象 2.2 实验工具Word2Vec 3 实验流程及结果分析 3.1 训练集语料预处理 3.2 训练Word2Vec神经网络 3.3 词向量的实现及相似度 3.4 映射结果及可行性 3.4.1 总体映射的统计 3.4.2 《中图法》R类向CMeSH映射 3.4.3 《中国中医药主题词表》TC中医病证类向CMeSH映射 4 结束语 2,本范例主要研究方法和相关知识点 2.1 实验对象涉及的两部词表及一部分类法 1) 《中文医学主题词表》 ( Chinese Medical Subject Headings,CMeSH) 由中国医科院医学信息研究所出版,是美国国立医学图书馆编辑出版编制的权威性主题词表“Medical Subject Headings”( MeSH) 的中文版本,可供中文医学文献的标引并为医学相关数据库检索提供支持。 2) 《中国中医药学主题词表》 收录主题词 13905 条,其中正式主题词 8307 条,入口词 5598 条,主题词按中医学科范畴分属于 15 个类目 68 个子类目[12]。该词表保持了与 MeSH 词表相兼容的特点,保证了其自身的科学性和实用性,成为使用最广、影响最大的一部中医药学主题词表,也是国内中医药大型数据库建设的支撑。 3) 《中国图书馆分类法》 最新版本第 5 版。其作为我国类分文献的通用工具,同时满足了建立文献分类检索工具和分类检索系统的需要。 2.2 什么是word2vec模型 下面的解释摘录自csdn文章《大白话讲解word2vec到底在做些什么》: word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。 word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。 举个例子。 对同样一个句子:Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系,其实就是input与label的关系。 这里假设滑窗尺寸为1,那么分别看看两种方法构造映射关系的方法有什么不同 1. CBOW可以制造的映射关系为:[Hangzhou,a]—>is,[is,nice]—>a,[a,city]—>nice 可以这样看:第一个目标词是is,它前一个和后一个词构成一个语境是[Hangzhou,a];窗口往后滑动1,到了a,它前一个和后一个词构成一个语境是[is,nice],依次往后滑动。 2. Skip-Gram可以制造的映射关系为(is,Hangzhou),(is,a),(a,is), (a,nice),(nice,a),(nice,city) 可以这样看:同样第一个目标词是is,分别与前一个词和后一个词构成映射关系是(is,Hangzhou)和(is,a);然后往后滑动1,就是a,又构成(a,is)和(a,nice)。 有结论说:CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。 到底是什么原因或者背后的原理是什么,读者自己去搜索研究一下。 3,本范例研究总结 在如今数字化、语义化发展已成必然趋势的大数据环境下,传统的医学知识组织系统互操作手段也需要作出突破。如何降低人工成本以及挖掘出医学知识间更深层的隐性关联,对此本研究提出了一种新的思路供借鉴,面对不同系统间的知识组织问题时,可以通过结合 Word2Vec 或其他机器学习、深度学习工具加以辅助,基于自动化映射的形式实现术语的序化、建立概念的关联,为相关研究人员及用户在使用不同医学知识组织系统时提供更智能化的检索支持,具有一定现实意义。 |