http://www.gooseeker.com/doc/article-75-1.html

  • 确定抓取内容

图4 定义第二级抓取规则

将网页上的目标抓取内容映射到整理箱中后保存规则。

  • 启动DS打数机进行抓取


问题:按照教程,我现在在编辑第二级规则。
那么启动DS是在第二级规则上启动吗?
还是在第一级规则上启动?
看后续描述似乎是第一级上启动。

然而,第一级规则启动DS之后,DS只抓了第一级规则的数。
第二级规则启动DS之后,DS只抓了第二级规则的数,并没有实现教程所说的两级抓取。

麻烦看下。






举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-6-8 14:15

沙发
Fuller 管理员 发表于 2017-2-7 19:57:38 | 只看该作者
多级规则,我们称为层级采集,我估计你已经掌握了层级采集的规则定义方法

如果是手工启动抓取,如果想同时运行两级,那么分别点击这两级规则的“集搜”按钮。单搜的话,只能运行完一个再运行另一个规则。

也可以设置爬虫群模式,给他们配置好调度参数后,各自并行运行,每一级都可以开启多个窗口并行采集
举报 使用道具
板凳
goodhanbin 中级会员 发表于 2020-6-8 14:15:57 | 只看该作者
第一页时,第一和二级规则,都正常采集,

第一页采集完毕,翻页至第二页时,第二级规则不执行采集,只有第一级规则自动采集,并连续翻页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:20