GooSeeker分词和情感分析软件的用户常问的问题中有这两个: 1. 如果我要分析的文本比较特殊,有很长的词,那么,我采取手工加词的方法,所加的词里面也有短词,而且,长词中会包含短词,词频统计结果是怎样的? 2. 情感分析那里,我也可以手工加情感词,如果发生长词覆盖短词,情感倾向打分是怎样的? 本文专门回答这两个问题。 1. 分词时词频统计算法 在“分词选词”的选词界面页面上,点击“加词调效果”可以手工加词,在这里加的词,如果长词覆盖短词,那么是不影响各自的统计的,例如,加了“价值”和“正确的价值观”两个词,“价值”统计到了8个,“正确的价值观”统计到了2个,那么8这个词频包含了2个长词贡献的词频。 2. 情感分析时统计情感词的方法 情感分析跟分词选词不同,情感倾向度打分依赖于识别出来的情感词的数量。情感分析功能也可以手工加情感词。如果出现长词覆盖短词,那么先用长词进行识别和打分,如果已经识别到了,就不用短词再打分一次了。也就是说,在情感分析之前,先把输入的情感词按照长短进行排序,先匹配长的,如果长词覆盖了短词,不会再次匹配短词。 |