在MS谋数台的“爬虫路线”工作台上定义翻页规则,选择“记号线索”类型,有点迷惑,定位映射和记号映射的区别是什么?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-8-26 15:58

沙发
Fuller 管理员 发表于 2016-10-1 16:31:33 | 只看该作者
这个问题很常见,请看下图:


1)上边的映射关系是选择菜单 线索映射-〉定位-〉线索1,所谓的定位映射
2)下边的映射关系是选择菜单 线索映射-〉记号映射

从上图可见,定位映射先划定一个“翻页区”范围,然后在这个翻页区里面找翻页记号。做这两步的目的是为了提高抓取规则的适应性。“先划定区域,再定位具体内容”

其实,可以不用两步的记号线索,可以用定点线索(第一个类型)。直接把代表“下一页”的那个HTML A元素映射给 线索1 就完事了。定点线索类型用的少,因为适应性要差很多
举报 使用道具
板凳
niniliya 初级会员 发表于 2018-8-26 14:44:22 | 只看该作者
Fuller 发表于 2016-10-1 16:31
这个问题很常见,请看下图:

设置成定点了,还是翻不了页 三个都设置试了三次,三次都翻不了
举报 使用道具
地板
Fuller 管理员 发表于 2018-8-26 15:58:16 | 只看该作者
把主题名贴出来帮你诊断规则的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 08:44