本帖最后由 maomao 于 2017-4-28 10:27 编辑

我做了一套层级抓取的规则,糯米层1和糯米层2
糯米层1抓列表数据和链接网址
糯米层2抓商品详情。

大约两星期前,运行两极规则,抓了一次数据。
现在,又要运行规则抓一次。那这次糯米层1抓下来的链接地址,就把上次抓下来的链接地址覆盖掉了,还是共存?是不是应该在第二次运行规则之前,把糯米层2的以前的线索全部清除?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-4-28 10:03

沙发
Fuller 管理员 发表于 2017-4-28 10:03:56 | 只看该作者
可以选择多个方案:

方案1:
每次都把第二层重新抓一遍,也就是说,运行第一级的时候,凡是抓到的第二级的网址,都会重新激活线索,那么,第二级会把所有的网址再抓一遍。
手工启动的单搜和集搜,都是这个方案。

方案2:
增量抓取,也就是说,抓取第一级的时候,并不是把所有抓到的第二级网址都重新激活,而是会对比一下,如果以前抓过,就不在激活。
爬虫群模式有专门的设置项,控制是否激活已经抓过的网址。

基于以上方案,手工清除第二级线索基本上没有太大必要。但是,在抓取电商网站的时候,商品会下架,有些网址再也不需要了,可以有选择地进行清理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 17:26