为什么集搜客网络爬虫导出的数据格式是Excel格式,而不是CSV格式?难道是认为有Pandas这种功能强大的数据处理软件,就不需要提供多种格式了吗?

Excel处理大文件实在是太慢了


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-2-25 17:05

Fuller 管理员 发表于 2021-2-25 10:52:46 | 显示全部楼层
首先,集搜客网络爬虫提供的数据格式不只是Excel格式,Excel格式是在线版用户使用的导出格式,企业版用户还有定制的VIP用户他们可以使用CSV、JSON、SQL等格式的导出数据。

其次,生成Excel格式的导出数据主要是历史原因,集搜客网络爬虫已经有15年的历史了,最早选用了XML格式和Excel格式,后来更流行JSON格式,这种新格式都做到了API接口上。
Pandas确实是一个强大的数据处理和分析程序库,用Pandas对集搜客网络爬虫导出的数据进行处理确实是一个很好的搭配。这个帖子:怎样在Jupyter Notebook读取通过集搜客网络爬虫软件采集到的数据 有讨论。这篇文章《从Excel到Python:最常用的36个Pandas函数!最完整的Pandas教程!》展示了这些功能:
1,生成Excel数据表
2,Excel数据表检查
2.1,检查数据维度(行列)
2.2,用info函数检查数据表信息,就像mysql的show table类似
2.3,检查数据格式
2.4,检查空值
2.5,查看唯一值
2.6,查看数据表数值
2.7,查看列名称
2.8,查看前10行数据
2.9,查看后10行数据
3,数据表清洗
3.1,处理空值:删除或者填充
3.2,清理空格
3.3,大小写转换
3.4,更改数据格式
3.5,更改列名称
3.6,删除重复值
3.7,数值修改和替换
4,数据预处理
4.1,数据表合并
4.2,设置索引列
4.3,排序(按索引、按数值)
4.4,数据分组
4.5,数据分列
5,数据提取
5.1,按照标签提取
5.2,按照位置提取
5.3,按标签和位置提取
5.4,按条件提取
6,数据筛选
6.1,按条件筛选
7,数据汇总
7.1,分类汇总
7.2,数据透视
8,数据统计
8.1,数据采样
8.2,描述统计
8.3,相关分析
9,数据输出
9.1,写入excel
9.2,写入csv

清晰可见,作者很有心地将Pandas跟Excel做了对应。为什么要做这个对应?因为Excel在数据探索和数据描述性统计方面很方便,是首选工具,也是汇集了主流的数据探索和描述的方法和套路。然而单纯用Python写个程序,不太符合探索和迭代过程,所以,像帖子《怎样在Jupyter Notebook读取通过集搜客网络爬虫软件采集到的数据》,要在Jupyter Notebook下用Pandas,可以完整的找回来数据探索的感觉和乐趣
举报 使用道具
马涌河畔 金牌会员 发表于 2021-2-25 14:44:14 | 显示全部楼层
Fuller 发表于 2021-2-25 10:52
首先,集搜客网络爬虫提供的数据格式不只是Excel格式,Excel格式是在线版用户使用的导出格式,企业版用户还 ...

原来pandas提供了这么强大的数据处理和数据分析功能。
最近我正在基于Jupyter notebook做一些数据探索,这些功能估计很有帮助。
举报 使用道具
王建国 高级会员 发表于 2021-2-25 16:55:16 | 显示全部楼层
Fuller 发表于 2021-2-25 10:52
首先,集搜客网络爬虫提供的数据格式不只是Excel格式,Excel格式是在线版用户使用的导出格式,企业版用户还 ...

我在用集搜客的文本分析工具分析数据,这个软件功能也很实用,我用爬虫采集到的结果要是能直接导入到文本分析工具里直接分析也是很不错的
这样就不用我先下载Excel再导入了
举报 使用道具
Fuller 管理员 发表于 2021-2-25 17:05:58 | 显示全部楼层
王建国 发表于 2021-2-25 16:55
我在用集搜客的文本分析工具分析数据,这个软件功能也很实用,我用爬虫采集到的结果要是能直接导入到文本 ...

目前没有自动导入文本分析软件的原因是微博采集结果中的字段太多了,不知道用户想把哪些字段放在分词工具中进行分词和情感分析。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:53