快捷导航
重新采集一遍,下级线索会不会重复?有些线索采集失败了,中途断掉了,重新激活采集的话,数据和下级线索会重复吗?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-31 11:51

数据集 高级会员 发表于 2017-10-31 11:51:42 | 显示全部楼层
1,如果是采集失败了,失败的线索本来就没有生成结果文件 所以数据和下级线索都不会重复。
2,如果中途断掉了,对于有翻页的情况,如果执行了一半就失败了,这时候已经有多个结果文件生成,如果激活该条线索后重新抓取,会出现重复采集的情况,所有会有重复的数据,可以对结果进行去重处理。但下级线索依旧不会重复,当生成已存在的线索时,只会被当作一条。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 通过箱线图看一线城市行业的招聘分布
  • 爬取豆瓣电影短评做中文分词与数据分析
  • ROST CM6分词软件下载安装
  • 学习Rost-CM内容挖掘系统的分词工具
  • 城市要素库时空分析系统开发设计要点

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-4-27 06:45