Excel是数据分析师的必备工具,众多功能可以满足绝大多数的数据清洗、转换、统计计算、可视化展示。而Jupyter Notebook这类交互式数据探索和分析工具代表了一股不容忽视的潮流,借助于Python编程的强大力量,数据加工的能力和灵活性已经有相当明显的优势,尤其是程序代码和文字描述可以混合编排,数据探索和数据描述做完了,一篇研究报告也基本上成型了。 然而Python毕竟是一个全功能的编程语言,对于非编程出身的数据分析师来说,Pandas,Numpy,Matplotlib这些词让人望而生畏。本系列Notebook将设法解决这个问题,让非编程出身的数据分析师能够忽略复杂的编程过程,专注于数据处理和统计分析部分,就像使用Excel的公式一样驾驭Python。 所以,我们将尝试发布一系列Jupyter Notebook,像文档模板,一些基本的程序环境设置、文件操作等固化下来,在设定的分析场景下不需要改动程序代码。而数据处理部分的代码可以根据需要截取选用。每一项功能用一个code cell存代码,不需要的处理功能可以删除。 本模板适应的场景 本模板可以处理GooSeeker分词和文本分析软件生成的数据表,对这些数据表进行类似于Excel的处理。所以,假定data/raw中的被分析数据就是GooSeeker分词和文本分析软件生成的数据表,如果随便放一张表,下面的处理程序将失效。 使用方法 基本操作顺序是:
注意:每个notebook项目目录都预先规划好了,具体参看Jupyter Notebook项目目录规划参考。如果要做多个分析项目,把整个模板目录专门拷贝一份给每个分析项目。 简要技术说明 在每个功能项单元,如果不需要关心的编程细节,将注明【编程细节】。 本notebook主要介绍一系列数据表的基本操作方法,跟Excel的功能项逐一做对比。 主要采用Pandas程序库。用Pandas打开Excel表格,生成一个DataFrame类型的对象,这个对象提供了一系列数据表格探索的函数,类似于关系数据库的表格结构和数据的操作。 以下的演示以GooSeeker分词和文本分析软件生成的词频统计excel表为例,如果要分析其它几张表,可以把对应代码拷贝一份,修改里面的表名变量。 准备程序环境 导入必要的Python程序包,设定要分析的文件名变量。使用以下变量对应GooSeeker分词结果表: file_word_freq:词频表 file_seg_effect: 分词效果表 file_word_choice_matrix: 选词矩阵表 file_word_choice_match: 选词匹配表 file_word_choice_result: 选词结果表 file_co_word_matrix: 共词矩阵表 本节下面的代码将把上述6个表名变量赋值 打开excel数据表 这里的df变量表示打开的excel表格,这是一个DataFrame对象,下面的所有操作都是针对DataFrame对象做的。 操作数据表 1. 展示数据维度(行列数) 2. 展示数据表结构信息 3. 查看数据各列格式 4. 检查数据空值 5. 查看唯一值 6. 查看数据表的值 7. 查看列名称 8. 处理空值(删除或填充) 9. 数据替换 10. 大小写转换 11. 更改数据格式 12. 更改列名称 13. 显示前n行 14. 显示后n行 15. 删除重复值 16. 设置索引列 17. 数据表合并 18. 排序(按索引,按数值) 19. 分组与查找 20. 按“词性”统计标签词的总数 21. 数据提取 22. 数据筛选 23. 数据汇总 24. 数据采样 25. 描述统计 26. 相关分析 27. 数据输出 模板下载 |