各位大牛好,我是新手,做一个对链家楼盘的两层数据抓取,但不知为何第二层不启动,麻烦不吝赐教,拜谢!

按照教程设置第一级规则,对第二级页面网址也勾选了下级线索(线索1)


对第一级规则的页面爬数测试也是对的。另外编辑第二级规则(即“链家小区详情”)测试也没问题,但最后采集只完成了第一级采集,第二级采集根本没有启动,这是什么原因呢?

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-9-7 11:43

沙发
bowieD 金牌会员 发表于 2017-9-7 11:30:59 | 只看该作者
本帖最后由 bowieD 于 2017-9-7 14:08 编辑

加载你的两级规则都是正确的,第二级不启动的原因:
1,层级抓取不是连贯的,你是不是只运行了第一级规则,第二级需要自己手动启动的,第一级只是给第二级添加线索
2,如果需要第二级自启动的话,可以用爬虫群调度功能, 把两级规则都加入调度,有线索第二级就会自动跑,参考《爬虫群模式》
举报 使用道具
板凳
qqqippp 初级会员 发表于 2017-9-7 11:43:36 | 只看该作者
bowieD 发表于 2017-9-7 11:30
加载你的两级规则都是正确的,第二级不启动的原因:
1,层级抓取不是连贯的,你是不是只运行了第一级规则, ...

谢谢指教,我是只启动了第一级,以为第二级是自动启动的(以为就像翻页那样自动搞定)。爬虫群还不会,学习一下。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 14:51