集搜客分词和文本分析软件可以导出多种数据表,为了对这些数据做进一步的数据分析和数据探索,比如,做一些描述性统计,我们在这里汇总了一系列数据分析和数据挖掘处理过程。这些处理过程都用Jupyter Notebook的格式,把python程序放在一个个code cell中。
一组处理过程压缩成了一个zip程序包,下载下来以后,解压到合适的目录,然后把集搜客分词和文本分析软件导出的数据表放在 data\raw 文件夹中,执行notebook中的cell,就能看到处理结果。
如果你需要某种特别的处理程序,请跟帖说明,我们将设法开发处理程序。
下面是已经做好的处理程序包和功能:
1. Excel对应的功能:
Jupyter Notebook模板下载:
1.1. 展示数据维度(行列数)
1.2. 展示数据表结构信息
1.3. 查看数据各列格式
1.4. 检查数据空值
1.5. 查看唯一值
1.6. 查看数据表的值
1.7. 查看列名称
1.8. 处理空值(删除或填充)
1.9. 数据替换
1.10. 大小写转换
1.11. 更改数据格式
1.12. 更改列名称
1.13. 显示前n行
1.14. 显示后n行
1.15. 删除重复值
1.16. 设置索引列
1.17. 数据表合并
1.18. 排序(按索引,按数值)
1.19. 分组与查找
1.20. 按“词性”统计标签词的总数
1.21. 数据提取
1.22. 数据筛选
1.23. 数据汇总
1.24. 数据采样
1.25. 描述统计
1.26. 相关分析
1.27. 数据输出成excel表
数据分析理论参考
1. 《社交网络分析介绍》
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 24 个关于本帖的回复 最后回复于 2023-9-5 16:48