抓取内容,能填写定位编号吗


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-12-11 16:39

沙发
Fuller 管理员 发表于 2016-12-11 16:39:43 | 只看该作者
不能。

定位编号是临时生成的,在MS谋数台(或者GS爬虫浏览器定义规则模式),为了方便查找DOM节点,给每个节点按照顺序编号。如果下次重新加载这个网页,编号改变的可能性很大,比如,某个节点增删了属性,或者网页上增加了一个广告,那么后面的节点编号就改变了。

所以,这个编号只是反映当前的排序情况。

在做抓取规则的时候,尽量使用定位标志映射,那么生成的定位表达式将相对于这个定位标志,不再从html的最高节点开始顺序遍历,在XPath中就会尽量避免出现position()=xxx这样的函数,这样就能提高适应性,网页上即使有编号变化也不会影响规则的适应性。

如果不用定位标志映射,MS谋数台生成规则的时候也会尽量自动找一个,但是没有人工选择的那么合适,当加载规则的时候,可能会提示分析失败,而且会显出出来哪些抓取内容定位失败。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 06:18