本帖最后由 ym 于 2020-3-2 16:33 编辑

新版的集搜客采摘浏览器把淘宝搜索存成网页快照后,再用旧版集搜客爬虫对它做采集规则,把定位选项修改为class,然后点测试,在数据规则里只有第一个字段“商品”是改成了用class定位,其余两个字段“价格”“店铺”的规则依然是修改之前的绝对定位xpath,这3个字段在网页上都是有class属性值的,为什么数据规则没有全部改为class定位呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-3-2 16:48

沙发
Fuller 管理员 发表于 2020-3-2 16:32:57 | 只看该作者
这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id,就能使用作为定位标志。如果在整理箱内部的某个抓取内容,往上找祖先节点的范围不会超出整理箱的定位区域。

如果要明确含有class和id,还是用手工做的定位标志映射吧。参看定位标志映射的教程:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
板凳
ym 版主 发表于 2020-3-2 16:48:35 | 只看该作者
Fuller 发表于 2020-3-2 16:32
这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id,就能使用 ...

网页上商品、价格、店铺的节点的祖先节点都是有class属性的,但是定位选项修改为class后,只有商品引用了class定位,价格、店铺字段就没有自动引用class定位

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 16:54