基于词向量的跨领域中文情感词典构建方法

2021-9-2 10:58| 发布者: Fuller| 查看: 3456| 评论: 0

摘要: 针对中文情感分析的一些问题:1)中文词汇在不同领域中的情感倾向不尽相同,2)一词多义现象明显,3)不同领域中的情感词也具有专业性、领域性。本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orien ...

今天分享的这篇研究论文范例,针对中文情感分析的一些问题:1)中文词汇在不同领域中的情感倾向不尽相同,2)一词多义现象明显,3)不同领域中的情感词也具有专业性、领域性。本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。

1,可直接使用情感分析软件

这篇论文范例主要是从技术实现角度讲解中文情感词典构建的方法,如果想直接使用情感分析软件,那么选择GooSeeker文本分词和情感分析软件,有内置的情感分析词典。主要功能有:情感分析,分词,关键词提取,人工筛选,词频统计,词云图,社交网络图生成等。同学们做研究和写论文,收集到的研究数据, 比如政策文本,新闻,在线评论,微博博文和评论等,如果需要分词后做分析,我们一般推荐同学们使用GooSeeker文本分词和情感分析软件,软件的界面很人性化,文科生可以直接无障碍上手使用,

由于有大量的活跃用户在持续使用这个软件帮助他们进行研究工作和写论文,这些用户会经常提出各种优化建议,所以这个软件的功能和易用性一直在优化提高,包括情感词典也在不断更新。

比如昨天就有同学和我们在技术交流群讨论,对于下面这个中文长句子,到底是应该做整体的情感分析,还是分成更短的单句进行情感分析,GooSeeker团队会根据一些实际场景做算法优化:

#让这样的饭圈彻底翻篇#别把明星捧那么高,明星本身没有那么大吸引力,也没有人设说的那么优秀,那些人要是真那么厉害,就不会是歌唱不好,戏演不好的花瓶了

2,范文信息介绍

标题:基于词向量的跨领域中文情感词典构建方法

作者

冯超 梁循 李亚平 周小平 李晓菲

中国人民大学信息学院

关键词:情感分析;情感词典;词向量;跨领域;

基金资助

日立企业合作(中国社交媒体的分析服务系统)资助项目; 

中国人民大学科学研究基金(10XNI029)资助项目; 

北京市自然科学基金(4132067)资助项目; 

国家自然科学基金(71271211)资助项目;

摘要

情感分析已经成为当今自然语言处理领域的热点问题。对于文本的自动化、半监督式的情感分析研究具有广泛的理论和实用价值。基于情感词典的情感倾向分析方法是文本情感分析的一种重要手段。然而,中文词汇在不同领域中的情感倾向不尽相同,一词多义现象明显。同时,不同领域中的情感词也具有专业性、领域性的特点。针对这些问题,本文提出一种基于词向量相似度的半监督情感极性判断算法(Sentiment orientation from word vector,SO-WV),并依据该算法设计出一种跨领域的中文情感词典构建方法。实验证明,本文所设计的情感词典构建方法能有效地对情感词情感倾向进行判断。算法不仅在不同领域的情感词典建立上具有良好的可移植性,同时还具有专业性、领域性的特点。

文章目录

引言

1 领域情感词典构建步骤

2 基于词向量的中文情感词典构建方法

    2.1 分布式词向量表示

    2.2 利用词向量计算相似度

    2.3 基于词向量的SO-WV算法

    2.4 情感词典构建

3 基于词向量的中文情感词典构建方法实验及分析

    3.1 实验前期工作

    3.2 实验结果及分析

        3.2.1 训练方式比较

        3.2.2 基于词向量的情感词典构造方法

        3.2.3 不同情感词典构建方法的比较

4 结束语

3,本范例主要研究方法和相关知识点

下面的情感词典构建方法的说明,摘录自知乎文章:文本情感分析方法研究小结

3.1,情感词典构建方法有哪些?

3.1.1 人工构建情感词典

人工构建词典是抓取数据之后多次进行人工标注,根据情感表达将词语进行正负向和强弱程度区分。比较典型的中文情感词典是王勇等对微博中的句子构建的极性词典。台湾大学的中文情感极性词典(NTUSD)、知网情感词典 HowNet等。

人工构建词典在扩充词条信息和便利性方面有一定的优势,但是大大增加了人工开销,并且设计的范围有限,不适合跨领域研究。

3.1.2 自动构建情感词典

第一种是基于知识库的方法,是对上面的人工构建情感词典进行的拓展,加入名词动词副词,使情感词更加全面。

第二种是基于语料库的方法,利用相关领域的大量语料和相关度的计算规则,结合机器学习的方法,自动统计情感词的情感极性,自动构建情感词典。

第三种是知识库和语料库结合的方法,通过将扩充的情感知识库和特定领域的语料库结合,使构成的情感词典更加丰富。

4,本范例研究的成果

如何在不同领域语言环境中自动地判断词汇的情感倾向是当前自然语言处理的重点。中文词汇具有模糊性、多义性的特点,而不同领域的情感词往往也不相同,这些问题都是跨领域情感词典构造过程中的难点。针对这些问题,本文设计了一种基于词向量的中文情感词情感倾向计算方法SO-WV,并在其基础上构造出一种跨领域中文情感词典构建方法。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-12-27 09:32