我用网络爬虫软件运行完《京东商品评论采集结果_中评》后,导出的excel是两个,这两个文件都有一些字段是空的,是不是不对?





举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-11-4 11:40

沙发
Fuller 管理员 发表于 2020-11-4 11:12:51 | 只看该作者
这个采集结果没有问题,我加载这个网络爬虫给你看看结构
举报 使用道具
板凳
Fuller 管理员 发表于 2020-11-4 11:38:33 | 只看该作者


规则加载以后,你会发现有两个整理箱。每个整理箱采集到的数据放在各自的excel表格中。但是,两张excel表格的结构是一样的,也就是字段数量是一样的。那么在填表的时候,每个整理箱对应的excel表会有些字段是空的,那些字段是另一个整理箱的

所以,这个采集结果是正确的
举报 使用道具
地板
发誓学好内容分析 金牌会员 发表于 2020-11-4 11:39:15 | 只看该作者
Fuller 发表于 2020-11-4 11:38
规则加载以后,你会发现有两个整理箱。每个整理箱采集到的数据放在各自的excel表格中。但是,两张excel表 ...

我还发现,第二张表中的数据全部是重复的,这是怎么回事?
举报 使用道具
5#
Fuller 管理员 发表于 2020-11-4 11:40:17 | 只看该作者
发誓学好内容分析 发表于 2020-11-4 11:39
我还发现,第二张表中的数据全部是重复的,这是怎么回事?

因为要翻页采集,每翻一页都会增加一条内容,而第二个表的内容在所有分页上都是一样的,所以,采集下来看到表里都是一样的数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 06:44