重新采集一遍,下级线索会不会重复?有些线索采集失败了,中途断掉了,重新激活采集的话,数据和下级线索会重复吗?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-31 11:51

沙发
数据集 高级会员 发表于 2017-10-31 11:51:42 | 只看该作者
1,如果是采集失败了,失败的线索本来就没有生成结果文件 所以数据和下级线索都不会重复。
2,如果中途断掉了,对于有翻页的情况,如果执行了一半就失败了,这时候已经有多个结果文件生成,如果激活该条线索后重新抓取,会出现重复采集的情况,所有会有重复的数据,可以对结果进行去重处理。但下级线索依旧不会重复,当生成已存在的线索时,只会被当作一条。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 16:51