快捷导航
1 1992

怎么增量抓数据

努力成为A 于 2016-1-14 20:49 发表 [复制链接]
怎么增量抓数据?可不可以只抓新的数据
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-1-14 20:56

ym 版主 发表于 2016-1-14 20:56:02 | 显示全部楼层
本帖最后由 ym 于 2017-4-6 10:50 编辑

如果是层级规则,第一级主题采集列表网址,第二级主题采集详情页信息,这种情况可以通过爬虫群采集实现增量抓取,分别对两级主题进行调度设置,其中第一级主题名要额外设置如下参数,才能实现采集新增网址的目的。
1、登录集搜客官网的会员中心->规则管理->***主题名->调度
2、第一级主题在设置完其他参数后,需要额外设置的参数如下:
  • 激活下级线索选择“否”
  • 下级线索重复容忍度填“0”
  • 激活线索设置选择“是”,然后设置定时采集的周期时间
完成以上设置后,通过爬虫群采集,第一级主题每次采集,就会只把新增的下级线索网址传递给第二级主题,从而实现增量抓取。
QQ截图20170406103341.png
QQ截图20170406102949.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 大型百货商场会员画像描绘
  • 自动导入导出数据
  • 批量爬取蘑菇街商品价格、评论信息
  • 微博用户数据分析
  • 批量爬取苏宁商品价格、评论信息

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-11-15 12:16