关于层级采集,我有两个问题:
(1)制定第二层规则的时候网址输入的是一个店铺的详情页面(以大众店铺为例),最后采集的数据也只有一条,如何采集多个店铺的详情页面呢?
(2)两级规则制定完成要抓取数据的时候,第一层规则明明设置了翻页,为什么统计线索的时候待抓取线索数还是为1呢?最后只采集的一页.........

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-1-16 16:54

沙发
quyixuan 金牌会员 发表于 2017-1-16 16:54:58 | 只看该作者
在一级规则里面设置下级线索,这样在一级规则里面采集到的网址会自动添加到二级规则,成为二级规则的线索,你在一级规则抓到多少详情页面的链接,二级规则就会抓取多少
设置翻页不会改变你当前规则的线索数量,不管你翻不翻页或者翻多少页,都只算一条线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 06:11