主题模型和命名实体识别是近年来文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题)——将文档看成一组主题的混合分布,而主题又是词语的概率分布——从而将高维度的“文档-词语”向量空间映射到低维度的“文档-主题”和“主题-词语”空间,有效提高了文本信息处理的性能。下面这篇范文,利用文本挖掘技术提取专利技术主题构建共现网络,尝试融合网络的主题识别并得出研究结论。 1,范例简介 标题: 基于异构信息网络融合的专利技术主题识别研究 作者: 田鹏伟1,2 张娴1,3 作者单位: 1. 中国科学院成都文献情报中心知识产权研究咨询中心 2. 百度时代网络技术(北京)有限公司 3. 中国科学院大学经济与管理学院图书情报与档案管理系 关键词:专利文献;专利技术;异构信息网络;网络融合;多元关系融合;主题识别; 发表日期:2021-07-23 基金资助: 国家社会科学基金项目“技术创新路径识别与预测的多元关系融合方法研究”(编号:18BTQ067); 摘要: [目的/意义]利用异构信息网络融合建模开展专利技术主题识别方法研究,能有效提高专利技术主题识别的准确性。 [方法/过程]利用文本挖掘技术提取专利技术主题构建共现网络,采用OVL算法及加权运算对异构信息网络进行融合,基于融合后的网络开展主题识别。 [结果/结论]以工业机器人领域为例的实证研究表明:与未经融合的关键词直接共现网络相比,基于融合网络的技术主题识别结果的主题内集中性更好、主题间区分度更显著、交叉性与重叠性更低。 文章目录 0 引 言 1 研究方法 1.1 研究思路 1.2 专利异构信息网络建模 1.2.1 获取数据特征项 1.2.2 构建专利异构信息网络 1.3 专利异构信息网络融合 1.3.1 矩阵计算融合网络 1.3.2 加权计算融合网络 1.4 专利技术主题识别 1.4.1 矩阵降维 1.4.2 专利技术主题聚类与可视化 2 实证分析 2.1 数据获取与预处理 2.2 异构信息网络融合分析 2.2.1 异构信息网络构建 2.2.2 异构信息网络融合 2.2.3 专利技术主题识别 2.3 对比分析与结果讨论 2.3.1 可视化对比 2.3.2 专家解读 2.3.3 结果讨论 3 结 语 2,本研究范例主要研究方法、相关知识点和工具 2.1 专利文本主题识别现状 2.1.1 专利文本主题识别常用方法 范例中提到的目前专利文本主题识别的三个阶段: (1) 基于专利技术主题词、主题词关联关系表征,研究专利文本的主题; (2) 采用共词分析方法、多元关系网络,对专利文献进行建模,获取专利文本的主题; (3) 应用文本挖掘技术( 如 LDA 等主题模型) 分析专利文献,挖掘专利的主题 2.1.2 LDA主题分析方面的案例、算法和程序代码 1. 《基于LDA模型的新冠疫情微博用户主题聚类图谱及主题传播路径研究》 2. 《微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》 3. 《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》 4. 《分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》 2.2 异构信息网络 文中提到的异构信息网络,我们从知乎文章《《Graph Learning》 —— 异构信息网络》做一些更详细的摘录。 Information network信息网络被定义为一个带有对象类型映射φ: V → A 和链接类型映射 ψ: E → R 的有向图 G=(V,E) 。每个对象 v∈V 属于某一个特定对象类型 φ(v)∈A,且每个链接 e∈E 属于关系类型集合R:ψ(e)∈R 中的特定关系类型。如果两个链接属于相同的关系类型,这两个链接共享相同的起始对象类型以及结束对象类型。 Heterogeneous / Homogeneous information network如果一个信息网络中,对象的类型总数 | A | > 1 或者链接的类型总数 | R | > 1,则称这样的网络为异构信息网络 Heterogeneous Information Network;否则为同构信息网络Homogeneous information network。 为了简化起见,称异构信息网络为 HIN。下图给了一个关于论文引用数据集的 HIN 的例子: 3,本范例研究总结 当前,专利文本主题识别大多基于单一关联关系分析,难以全面挖掘专利数据中更多隐性关联信息。本文采用多维、异构建模思维,提出了一种基于异构信息网络融合的专利技术主题识别方法,对专利信息进行异构建模,结合 OVL 算法对异构信息网络融合,在此基础上识别专利技术主题。以工业机器人领域为例的实验对比结果显示,异构融合的专利信息网络可以有效提高技术主题聚类的全面性与准确性。未来,关于异构信息网络融合的专利技术主题识别研究,需要关注以下两方面: 一是优化多维关系特征获取。专利大数据环境下,专利信息间蕴涵的直接、间接关联日渐丰富,不同维度的关联关系对技术主题表征的侧重、强度有所差异,要尽可能深挖更多关联类型,构建更丰富的多维信息关系体系。二是深入开展网络融合算法应用研究。网络融合方法多样,但目前应用于文本主题识别的研究尚不多见,本文应用 OVL算法开展了有限的探索。不同融合算法在概念、方法上有所差异,针对异质文本信息特征,找寻更具有效性、适用性及计算经济性的融合算法是未来该研究方向的重要研究命题 |