层级抓取不管是第一级还是第二级都失败
主题名“riyadxbtest1”"riyadxbtest2"
只能抓取前几个,后面就显示匹配失败
这是哪里出了问题呢

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-6-4 10:38

沙发
Fuller 管理员 发表于 2018-6-2 10:04:39 | 只看该作者
亚马逊网页的节点上有很多@id和@class值,id一般是唯一的,爬虫生成规则的时候会优选id,有时候翻页到第二页,这个id值就变了,所以会匹配失败。




向上图那样做定位标志映射,这样就是人工指定选择哪个定位标志,不要爬虫自动选
1,给两个抓取内容做上定位标志映射,选用同一个含有定位标志的节点做映射。具体参看《定位标志精确采集范围
2,给顶层的容器节点也做定位标志映射,而不用样例复制,也是用来采集多个样例的,具体参看《定位标志采集列表数据
3,双击顶层的容器节点,进入到高级设置窗口,勾选class,就能看到选择的定位标志变了,一开始是@id="result0",改成class,因为id是唯一的,无法采集多个样例

另外,亚马逊的网页内容是动态的,所以,应该打开DS打数机的自动滚屏。在DS打数机菜单上设置,配置-》滚屏参数,把滚屏次数设置成>0的数字就打开了自动滚屏
举报 使用道具
板凳
aanari 初级会员 发表于 2018-6-4 10:38:55 | 只看该作者
Fuller 发表于 2018-6-2 10:04
亚马逊网页的节点上有很多@id和@class值,id一般是唯一的,爬虫生成规则的时候会优选id,有时候翻页到第二 ...

非常感谢!!!!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 11:47