上周我们分享过一篇知识图谱方面的研究范文《基于层次结构和共现关系的在线评论主题图谱构建方法研究》,今天再分享一篇: 为充分利用影评数据提高影视推荐效果,构建出具有特定属性的影视与评论知识图谱,提出了一种半自动的影评知识抽取方法。 首先将源于网络的非结构化影评数据进行清洗、分词等预处理。 然后逐句进行剖析获得影评句法树,统计分析涉及到的电影元素词以及情感词,构建用于知识抽取词典,对影评数据进行标注。 最后制定知识抽取规则,结合词典和抽象量化聚类进行知识抽取,获得影评结构化知识,与电影本体知识进行融合成为影视与评论知识图谱。 因新的知识结构包含用户体验等主观因素,包含影评信息的知识图谱可以更好地应用于智能推荐和其它知识图谱的应用领域中。 1,范文信息介绍 题目: 影评情感分析知识图谱构建研究 作者: 许智宏1,2于子琪1董永峰1,2闫文杰1 作者单位: 1. 河北工业大学人工智能与数据科学学院 2. 河北省大数据计算重点实验室 关键词: 知识图谱;影视评论;自然语言处理;情感分析; 发表日期: 2020-08-15 基金资助: 国家自然科学基金(61702157); 河北省科技支撑计划(15210506); 天津市自然科学基金(16JCQNJC00400,16JCYBJC15600); 摘要: 为充分利用影评数据提高影视推荐效果,构建出具有特定属性的影视与评论知识图谱,提出了一种半自动的影评知识抽取方法。首先将源于网络的非结构化影评数据进行清洗、分词等预处理。然后逐句进行剖析获得影评句法树,统计分析涉及到的电影元素词以及情感词,构建用于知识抽取词典,对影评数据进行标注。最后制定知识抽取规则,结合词典和抽象量化聚类进行知识抽取,获得影评结构化知识,与电影本体知识进行融合成为影视与评论知识图谱。因新的知识结构包含用户体验等主观因素,包含影评信息的知识图谱可以更好地应用于智能推荐和其它知识图谱的应用领域中。 文章目录 1 引言 2 知识图谱构建流程 1)数据获取及预处理: 2)语义情感分析: 3)知识图谱构建: 3 数据来源与预处理 3.1 数据来源 3.2 数据预处理 4 语义情感分析 4.1 句法分析 4.2 情感语义标注 4.2.1 电影元素词语标注 4.2.2 情感词语标注 5 知识图谱构建 5.1 知识抽取句法规则 5.2 影评知识抽取 5.3 电影知识融合 6 基于neo4j数据库的知识图谱可视化展示 7 总结 2,主要研究步骤,研究工具和相关知识点 2.1 本研究知识图谱构建步骤 1. 数据采集与预处理,爬虫抓取豆瓣影评数据。 2. 文本情感分析:句法分析,情感语义标注 3. 知识图谱构建:实体抽取,属性抽取 --> 知识融合,本体构建 4. 基于 neo4j 数据库的知识图谱可视化展示 2.2 收集在线评论使用什么工具? 收集豆瓣影评数据,可以使用GooSeeker网络爬虫软件提供的豆瓣采集快捷工具,添加网址或者关键词,启动采集即可。采集完成后,导出excel数据表。 2.3 中文文本情感分析工具推荐用哪款? 建议使用GooSeeker文本分词和情感分析软件,主要功能有:分词,人工选词,词频统计,词云图生成,情感分析,社会网络图生成。界面友好,操作简单,文科生可以轻松使用。 GooSeeker将一些常用的数据挖掘和自然语言处理算法用Python实现了,并且制作成Jupyter Notebook,供大家下载使用,例如下面第一篇就是关于依存句法分析算法的,还有关键词提取算法的Notebook: 1. 在Jupyter Notebook中使用spaCy可视化中英文依存句法分析结果 2. Jupyter Notebook使用Python做TextRank关键词提取测试 3.分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 4.分析电商评论发现消费者话题-生成走势图(Jupyter Notebook) 3,本范例的研究总结 影评情感分析知识图谱是包含用户情感因素的语义性的知识库。在知识图谱本身构建方面,需要分析实体、属性以及其对应关系的准确度,尤其是影评中电影元素词与情感词之间对应的精准度,考虑在构建标注词典的适应性与演化性,密切关注网络新词的诞生与演变。此类知识图谱构建方法具有一定的扩展性,在一定范围内适用于具有开放型评论的平台的商品( 项目) ,在特定领域需要构建特定的知识抽取词典及规则,以便构建该领域的知识图谱。 在面向电影行业的海量信息中,有许多值得应用的地方,例如推荐系统、定制广告、问答系统和电影搜索等。在使用协同过滤的推荐系统中,需要结合用户对电影的单独评分,影评情感分值可起辅助作用。在知识图谱的应用效果中,尤其是在智能推荐领域中,需要注意在其应用场景的准确率与召回率。 |