为什么我导出的数据量不对呢,这是两次导出的数据,数据重复了很多而且少了很多,现在也没有未采集的显示了。
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-7-5 17:49

沙发
shengchengx 金牌会员 发表于 2017-7-5 17:38:47 | 只看该作者
有几个点可能会造成数据重复和数据缺失
1. 你建立的2个任务中, 还有相同的线索. 如果你删除其中一个任务, 那么相同的那部分线索在另一个任务也删除了
2. 多个任务中, 含有相同的线索, 最后采集的结果中也会有重复的数据
举报 使用道具
板凳
洪城县令 中级会员 发表于 2017-7-5 17:40:38 | 只看该作者
shengchengx 发表于 2017-7-5 17:38
有几个点可能会造成数据重复和数据缺失
1. 你建立的2个任务中, 还有相同的线索. 如果你删除其中一个任务,  ...

数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务,数据重复不是多个任务之间重复,是同一个任务重复,不是说后导出的数据不包括之前导出的数据吗?我现在同一个任务导出的多个文件夹数据存在重复
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-7-5 17:45:56 | 只看该作者
洪城县令 发表于 2017-7-5 17:40
数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务, ...

如果是同一个任务重复, 那可能的原因是 1.失败的线索中, 有的是已经采集到了结果, 但是由于网络或其它的原因, 线索状态没有上报. 如果点击"全部重新采集", 会有重采的情况
2. 由于多次导出和下载, 可能一部分数据下了2次

你可以把已经导出的数据进行去重,去重之后会有一个列表,然后用所有线索网址列表对比,这样就可以得到那些没有数据的线索了
对于没有数据的线索,你新建一个任务,让爬虫去采集这些数据,为了防止和之前的任务重复,可以在导出的数据后删除之前的任务,然后再进行新建



举报 使用道具
5#
shengchengx 金牌会员 发表于 2017-7-5 17:47:56 | 只看该作者
洪城县令 发表于 2017-7-5 17:40
数据现在应该是没有重复的,我是在Excel表格中进行删除重复项的
我总共是建立了4个任务,没有删除任务, ...

新建的任务, 你可以自己记录一些信息跟踪一下
比如:
去重后添加的线索数,
已导出下载的文件,  
每个文件的数据量, 文件合并去重后的数据量
有了这些数据之后,如果有数据缺失的情况,后台可以协助你一起找出一些哪些线索以及是什么原因

举报 使用道具
6#
洪城县令 中级会员 发表于 2017-7-5 17:48:55 | 只看该作者
shengchengx 发表于 2017-7-5 17:47
新建的任务, 你可以自己记录一些信息跟踪一下
比如:
去重后添加的线索数,

请问一下我怎么在excel中找出没有重复的线索?删除重复项只是把两个重复的删除掉一个,还是没有识别出单个记录的线索?
举报 使用道具
7#
shengchengx 金牌会员 发表于 2017-7-5 17:49:56 | 只看该作者
洪城县令 发表于 2017-7-5 17:48
请问一下我怎么在excel中找出没有重复的线索?删除重复项只是把两个重复的删除掉一个,还是没有识别出单 ...

去重之后就是没有重复的了,以这个为基础,添加线索和后续的数据对比

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 23:18