1,项目说明 本文讲解的内容是下面几个子过程的最后一步,也是这个系列的最后一篇文章 1. 用GooSeeker网络爬虫采集电商数据 2. 用GooSeeker分词和文本分析软件做情感分析 3. 使用情感分析结果在Jupyter Notebook中用Python画评论走势图 1.1 数据采集和分词 见之前已发布的3篇文章: 3. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 1.2 对商品评论做情感分析 在GooSeeker分词和文本分析软件界面上启动情感分析,根据数据量多少,等待几分钟不等的时间就会完成情感分析,然后就可以导出情感分析结果表了,具体讲解参看数据源一章。 1.3 数据分析师可以驾驭的数据处理模板 我们在进行数据分析和展示时,会经常用到图表,使用图表有哪些好处呢: 1、能够让我们更加的直观看到我们的数据。 2、能够比文字更简洁的描述出我们所想要表达的内容。 3、我们可以通过图表很好的将一些事物中隐藏的联系,进行关联,使得我们能够发现众多数据中的小秘密,让他们不仅仅只是一堆杂乱无章的数字而已。 4、图表的使用还能够让我们的文章内容更的严谨,使得我们的数据可信度更高。 GooSeeker分词和文本分析软件有多项功能:分词,词频统计,情感分析,生成社交网络图,生成多种词云图,并且可以把生成的图片保存到本地。但是,GooSeeker分词软件目前还没有针对情感分析结果进行可视化的功能。很多时候我们在Jupyter Notebook中进行交互式数据处理和数据分析,分析过程和结果展示往往是一个整体,那么需要在Notebook中根据情感分析结果生成各种图表, 以直观的了解内容的情感分布和变化趋势。 然而Python毕竟是一个全功能的编程语言,对于非编程出身的数据分析师来说,Pandas,Numpy,Matplotlib这些词让人望而生畏。本系列Notebook将设法解决这个问题,让非编程出身的数据分析师能够忽略复杂的编程过程,专注于数据处理和统计分析部分,就像使用Excel的公式一样驾驭Python。 所以,我们将尝试发布一系列Jupyter Notebook,像文档模板,一些基本的程序环境设置、文件操作等固化下来,在设定的分析场景下不需要改动程序代码。而数据处理部分的代码可以根据需要截取选用。每一项功能用一个code cell存代码,不需要的处理功能可以删除。 1.4 本模板适应的场景 本模板根据GooSeeker分词和文本分析软件生成的情感分析结果excel表,对数据进行基本处理后,生成常用的几种图表。 1.5 使用方法 基本操作顺序是: 1. 在GooSeeker分词和文本分析软件上进行任务创建并导入采集结果excel,启动情感分析,并导出情感分析结果表。 2. 将导出的情感分析结果表放在本notebook的data/raw文件夹中 3. 从头到尾执行本notebook的单元 注意:每个notebook项目目录都预先规划好了,具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目,把整个模板目录专门拷贝一份给每个分析项目。 1.6 简要技术说明 在每个功能项单元,如果不需要关心的编程细节,将注明【编程细节】。 本notebook主要实现以下几个步骤: 1. 读取data/raw文件夹中的从分词工具导出的情感分析结果表 2. 对情感分析数据进行基本的预处理 3. 生成各种图表 2,第三方库 本notebook使用了pyecharts,需要安装这个第3方库,假设读者安装的是Anaconda套件,那么安装步骤是这样的: 1. 在Windows开始菜单中找到Anaconda 2. 在Anaconda菜单中找到Anaconda Prompt菜单,选择这个菜单可以打开一个命令行窗口 3. 在命令行窗口输入这个命令:pip install pyecharts 4. 安装完成以后,执行本notebook中的代码cell,如果pyecharts没有安装成功,下面第一个代码cell就会执行失败 3, 数据源 数据源是GooSeeker分词和文本分析软件生成的情感分析正文表。 原始数据是从天猫,京东,苏宁上采集的关于“iphone12”的评论数据。供参考和实验。 将要分析的评论内容以Excel格式导入GooSeeker分词软件,几分钟后就能得到词频词性表和分词效果表。如果还做了关键词筛选,还可以生成共词矩阵,选词匹配表和社交关系图。另外情感分析也可自动执行,也可以配置自己的情感词库和文本分类关键词。下图展示了可导出的分词结果表。本文使用Python对分词效果表进行统计分析和画图。 下图显示的是从集搜客分词和文本分析软件导出的情感分析正文表数据,下面我们会读取这个excel并且数据预处理,比如去除无效数据,日期格式的统一等,让后调用pyecharts画出集中走势图。 4, 修改历史 2021-06-24:第一版发布 5, 版权说明 本notebook是GooSeeker大数据分析团队开发的,所分析的源数据是GooSeeker分词和文本分析软件生成的,本notebook中的数据和代码可自由共享使用,包括转发、复制、修改、用于其他项目中。 6, 准备程序环境 导入必要的Python程序包,设定要分析的文件名变量。使用以下变量对应GooSeeker分词结果表: file_sentiment:正文情感分析表 file_source: 原始内容表 【编程细节】本节下面的代码将对上述词频表名变量赋值 7, 读取正文情感分析excel表 以下的演示以GooSeeker分词和文本分析软件生成的正文情感分析excel表为例,需要把正文情感分析表放到本notebook的data/raw文件夹下 8, 删除发布时间为NaN的记录 9, 发布时间字段取前7位的月份 10,统计正面评价,负面评价, 中性评价数量 11,生成情感分析数量分布饼图 12,生成用户评论数量变化时间序列图 13, 生成正负评价对比柱状图 14,生成情感分析数量变化时间序列图 15,下载本Jupyter Notebook 作为数据探索实验,本notebook放在文件:notebook\eda 下载notebook源代码请点击:对电商商品评论做情感分析后画情感走势图 |