|
本帖最后由 ym 于 2020-3-19 20:28 编辑
1、首先要把每一条原始数据的情感倾向算出来
把原始数据切分后的每个句子的情感倾向,做一个简单计算来得到原数据的情感倾向,把正负面中性改为1 0 -1数值
然后选中全部数据,用“数据菜单”->“数据透视表”功能,以序号为行,统计情感倾向的求和就可以了。
情感倾向大于0就是正面,小于0是负面,等于0是中性。我们拷贝透视表,在旁边列里粘贴为数值,在新一列里输入下面函数式,这里的引用单元格要根据自己的情况修改。然后按住单元格右下角的+标志往下拖动填充计算。
=IF(N2>0,"正面",IF(N2=0,"中性","负面"))
2、与原数据匹配到发布时间
为了方便后面的计算,在底部新建工作表,把它命名为“导入数据表”,然后把最初导入平台的数据表拷贝到里面,注意要有发布时间这一列,而情感分析表就命名为“情感分析表”。
在“情感分析表”的新一列里输入下面的函数式,这里引用的数据表名和单元格要根据自己的实际情况修改,再自动填充计算。目的是把上表的序号(行标签列),与“导入数据表”中的序号进行关联匹配,就可以把发布时间索引到新一列里,下图的发布时间是显示成了文本格式,下面会调整成正常格式。
=INDEX(导入数据表!E:E,MATCH(情感分析表!M2,导入数据表!A:A,0))
自动填充计算后,选中发布时间一列,右键选设置单元格格式,弹窗里选日期的标准格式,就可以显示成年月日格式。
3、按日期统计各种情感倾向的数量
这里的时间是带有小时分钟,为了能统计到同一天的情感数量,通过查找替换功能来过滤小时分钟,只保留年月日,如下图,在查找内容里输入空格和星号,替换为空字符即可。
然后用数据透视表功能,把发布时间作为行,情感倾向作为列,计算情感倾向的数量,再把时间设置为降序,就可以得到做折线图的统计表。
有些日期的情感倾向是空的,这种要用0代替,把时间一列拷贝到旁边位置,再把正面、负面、中性3列拷贝粘贴为数值,然后逐列筛选出空的单元格填上0。
4、用折线图可视化
选中统计表,用“插入菜单”->“折线图”->“普通折线图”,就可以生成折线图。
最后对折线图的样式和排版做些调整就完成了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 8 个关于本帖的回复 最后回复于 2021-6-16 15:15