1,项目说明 1.1,数据分析师可以驾驭的数据处理模板 我们在进行数据分析和展示时,会经常用到图表,使用图表有哪些好处呢: 1、能够让我们更加的直观看到我们的数据。 2、能够比文字更简洁的描述出我们所想要表达的内容。 3、我们可以通过图表很好的将一些事物中隐藏的联系,进行关联,使得我们能够发现众多数据中的小秘密,让他们不仅仅只是一堆杂乱无章的数字而已。 4、图表的使用还能够让我们的文章内容更的严谨,使得我们的数据可信度更高。 GooSeeker分词和文本分析软件有多项功能:分词,词频统计,情感分析,生成社交网络图,生成多种词云图,并且可以把生成的图片保存到本地。但是,GooSeeker分词软件目前还没有针对情感分析结果进行可视化的功能。很多时候我们在Jupyter Notebook中进行交互式数据处理和数据分析,分析过程和结果展示往往是一个整体,那么需要在Notebook中根据情感分析结果生成各种图表, 以直观的了解内容的情感分布和变化趋势。 然而Python毕竟是一个全功能的编程语言,对于非编程出身的数据分析师来说,Pandas,Numpy,Matplotlib这些词让人望而生畏。本系列Notebook将设法解决这个问题,让非编程出身的数据分析师能够忽略复杂的编程过程,专注于数据处理和统计分析部分,就像使用Excel的公式一样驾驭Python。 所以,我们将尝试发布一系列Jupyter Notebook,像文档模板,一些基本的程序环境设置、文件操作等固化下来,在设定的分析场景下不需要改动程序代码。而数据处理部分的代码可以根据需要截取选用。每一项功能用一个code cell存代码,不需要的处理功能可以删除。 1.2,本模板适应的场景 本模板根据GooSeeker分词和文本分析软件生成的情感分析结果excel表,对数据进行基本处理后,生成常用的几种图表。 1.3,使用方法 基本操作顺序是: 1. 在GooSeeker分词和文本分析软件上进行任务创建并导入包含原始内容的excel(注:原始内容是使用微博关键词工具采集到的结果,包含有发布时间字段),启动情感分析,并导出情感分析结果表。 2. 将导入分词和文本分析软件的包含原始内容的excel放在本notebook的data/raw文件夹中 3. 将导出的情感分析结果表放在本notebook的data/raw文件夹中 4. 从头到尾执行本notebook的单元 注意:每个notebook项目目录都预先规划好了,具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目,把整个模板目录专门拷贝一份给每个分析项目。 1.4,简要技术说明 在每个功能项单元,如果不需要关心的编程细节,将注明【编程细节】。 本notebook主要实现以下几个步骤: 1. 读取data/raw文件夹中的从分词工具导出的情感分析结果表 2. 读取data/raw文件夹中的包含原始内容的excel表,主要是要读取这个表的发布时间字段 3. 对情感分析数据进行基本的预处理 4. 生成各种图表 2,第三方库 本notebook使用了pyecharts,需要安装这个第3方库,假设读者安装的是Anaconda套件,那么安装步骤是这样的: 1. 在Windows开始菜单中找到Anaconda 2. 在Anaconda菜单中找到Anaconda Prompt菜单,选择这个菜单可以打开一个命令行窗口 3. 在命令行窗口输入这个命令:pip install pyecharts 4. 安装完成以后,执行本notebook中的代码cell,如果pyecharts没有安装成功,下面第一个代码cell就会执行失败 3,数据源 数据源是GooSeeker分词和文本分析软件生成的情感分析结果excel表。 原始数据是从微博上采集的关于“甘肃马拉松事故”的博文数据。供参考和实验。 常用的自然语言处理包括分词、文本分类、情感分析等等,虽然也有对应的Python程序库直接调用,但是为了降低项目执行的复杂度,直接使用GooSeeker分词和文本分析软件。将要分析的微博内容以Excel格式导入该软件,几分钟后就能得到词频词性表和分词效果表。如果还做了关键词筛选,还可以生成共词矩阵和社交关系图。另外情感分析也可自动执行,也可以配置自己的情感词库和文本分类关键词。下图展示了可导出的分析结果表。本文使用Python对词频表进行统计分析和画图。 4,修改历史 2021-06-02:第一版发布 5,版权说明 本notebook是GooSeeker大数据分析团队开发的,所分析的源数据是GooSeeker分词和文本分析软件生成的,本notebook中的数据和代码可自由共享使用,包括转发、复制、修改、用于其他项目中。 6,准备程序环境 导入必要的Python程序包,设定要分析的文件名变量。使用以下变量对应GooSeeker分词结果表:
【编程细节】本节下面的代码将对上述词频表名变量赋值 7,读取正文情感分析excel表 以下的演示以GooSeeker分词和文本分析软件生成的正文情感分析excel表为例,需要把正文情感分析表放到本notebook的data/raw文件夹下 8,读取原始内容表 9,合并两张表 在导出表中没有发布日期字段,那么就没法画走势图,所以,需要将原始数据表和情感分析结果表进行合并。可以用Pandas函数看每张表的结构,限于篇幅,本notebook不再展示查看表结构的函数。 下面的函数调用很简单,Pandas会根据两张表的相同字段进行匹配,把分析需要的发布日期合并进来。 10,统计正面评价,负面评价, 中性评价数量 11,生成饼图 12,生成时间序列图 13,生成柱状图 14,Jupyter Notebook下载 下载notebook源代码请点击:用python画情感分析结果走势图 |
gz51837844: 本notebook没有在mac系统上测试过。你可以到网上找一个mac安装最新版python的教程。安装完成后运行本notebook
13603357478: 我还想问一下可以做关键词的变化趋势吗!
13603357478: 您好请问有适用于mac的教程吗
17773376573: 请问在获取时间字段前七位时出现这样的错误:'Timestamp' object is not subscriptable
poppy21: 我的是苹果但是现在上面的案例是可以正常运行的,但是我自己用了自己的数据之后,就无法运行了,有比如日期不对等问题,反正最后还是无法成图 ...