文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务: 1,用集搜客爬虫做数据采集:解决数据来源和收集的问题; 2,用集搜客分词和分类检索平台:做文本分词、情感分析、文本分类的数据处理; 下面用豆瓣电影短评-做案例,展示整个操作流程,体会一下情感分析是如此简单。 1、爬取影评数据 我们用集搜客爬虫的快捷采集工具来抓取“豆瓣_电影短评”数据,把热门和最新评论的网址添加进去采集,由于豆瓣有浏览限制只能采到前10页,为了获取尽量多的评论,最好是在电影上线后每天重新采一遍最新评论的网址,这样就可以增量采到新发布的评论。 完成采集后打包下载数据,可能会有重复的数据,我们利用Excel的“数据->删除重复项”功能来去重,过滤后是有775条数据,然后,为了下一步做文本分词和情感分析,我们按照下图的表字段名来修改表头。 2、情感分析 访问下面网址,登录到集搜客的分词和分类检索平台上,创建任务并且导入前面整理好的Excel表。然后点进“情感分析”菜单,我们会看到它自带包含2万多个词语的情感词典,点“启动情感分析”,就会把原数据切出句子,并自动与情感词典做匹配,计算输出句子的正负面情感倾向。 当然,自带的情感词典无法对所有语义环境的文本都适用,但没关系,我们可以修改情感词典,甚至把整个词典删掉,导入我们自己整理好的情感词典,每次修改情感词典后,都可以重启情感分析,这样,通过调整情感词典,可以达到更好的情感分析效果。 情感词典也很好整理,分为类型、词语、权值3个属性,类型分为正面词、负面词、否定词、程度词4种,顾名思义,正面词就是具有积极正向情感的词语,负面词就是消极情感的词语,否定词就是对句子情感倾向起到反转作用的词语,程度词就是表示增强或减弱情感强度的词语。而权值就代表了词语所带的情感强弱,4类词都有自己的取值范围,在规定范围里可以根据需要调整词语的权值大小。而系统最终会根据每个词的权值来计算句子的得分,进而判断出对应的情感倾向。 我们可以在“分词选词”菜单里,按词性筛选出形容词、名词、动词等,选出带情感色彩的词语,再整理成情感词表导入分析,这样得到的情感词典就会大大提高跟原数据的拟合度和准确性。 3、统计分析 然后,我们导出情感分析表,会看到有序号和句子序号两个字段,序号就是我们最初整理到的原数据排序,用它可以关联原数据;而句子序号就会句子在原数据里的先后序号。接下来会做一些统计和可视化。 上面表里的情感倾向是对应到句子的,我们通过数据透视图,就可以生成下图。按句子看的话,中性情感是最多的,占比达41%,其次是正面情感占比34%,负面情感占比25%,与正面对比,两者相差9%。 下面我们通过句子来推导出原数据的情感倾向,把属于同一条原数据的正面、中性、负面句子转换为对应的数值1、0、-1,计算求和得到原数据的情感倾向。跟前面句子的情感分布对比,中性情感的占比降低了8%,正面、负面情感分别增加了4%;按原数据来看,整体上表达正面情感的居多,其次是中性情感,最后是负面情感,它跟正面情感的差距依然是9%。 把上图与豆瓣评分进行对比,中性情感比3星占比要少14%,说明不少3星评论,它实际上的情感是偏向正面或负面的,并不是绝对的中性。 最后,把前面匹配到的正面词、负面词分别拷贝添加到“分词选词”菜单的“选词结果”中,就能自动获取到由正面词、负面词各自组成的词云图。从下图1正面词云图可以看出,正面评论里表达喜欢、不错、爱情、惊喜、成功、凯旋的比较多;看下图2负面词云图,负面评论里讨论更多的是绑架、尴尬、荒诞、遗憾、欺骗等。 |
甜筒713: 嗷,现在已经做出来了。对了,追问一句,应该用抓取的原文评论做情感分析,还是用分词之后的结果做情感分析?两个我都尝试了,结果有很大不同。 ...
Fuller: 同时在线用户多的时候会变慢。现在还没有完成吗?刷新一下页面看看最新状态有没有完成
yhyh520: 想问下 正文情感分类里面的总得分值的大小是怎么区分正负面情感倾向的
842337597: 求问,情感分析的时候把句子分成了两段,怎么能判断整个句子的情感倾向呢?还有赋值怎么能体现出来呢