GooSeeker分词软件手工加词和情感词是否会重叠统计

2022-7-14 17:09| 发布者: Fuller| 查看: 2668| 评论: 0

摘要: GooSeeker分词和情感分析软件的用户常问的问题中有这两个:1. 如果我要分析的文本比较特殊,有很长的词,那么,我采取手工加词的方法,所加的词里面也有短词,而且,长词中会包含短词,词频统计结果是怎样的?2. 情 ...

GooSeeker分词和情感分析软件的用户常问的问题中有这两个:

1. 如果我要分析的文本比较特殊,有很长的词,那么,我采取手工加词的方法,所加的词里面也有短词,而且,长词中会包含短词,词频统计结果是怎样的?

2. 情感分析那里,我也可以手工加情感词,如果发生长词覆盖短词,情感倾向打分是怎样的?

本文专门回答这两个问题。

1. 分词时词频统计算法

在“分词选词”的选词界面页面上,点击“加词调效果”可以手工加词,在这里加的词,如果长词覆盖短词,那么是不影响各自的统计的,例如,加了“价值”和“正确的价值观”两个词,“价值”统计到了8个,“正确的价值观”统计到了2个,那么8这个词频包含了2个长词贡献的词频。

2. 情感分析时统计情感词的方法

情感分析跟分词选词不同,情感倾向度打分依赖于识别出来的情感词的数量。情感分析功能也可以手工加情感词。如果出现长词覆盖短词,那么先用长词进行识别和打分,如果已经识别到了,就不用短词再打分一次了。也就是说,在情感分析之前,先把输入的情感词按照长短进行排序,先匹配长的,如果长词覆盖了短词,不会再次匹配短词。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-29 10:16