用集搜客爬虫对淘宝搜索的网页快照做采集规则，修改定位选项后数据规则有些字段没更新到

ym

本帖最后由 ym 于 2020-3-2 16:33 编辑

新版的集搜客采摘浏览器把淘宝搜索存成网页快照后，再用旧版集搜客爬虫对它做采集规则，把定位选项修改为class，然后点测试，在数据规则里只有第一个字段“商品”是改成了用class定位，其余两个字段“价格”“店铺”的规则依然是修改之前的绝对定位xpath，这3个字段在网页上都是有class属性值的，为什么数据规则没有全部改为class定位呢？

Fuller · 发表于 2020-3-2 16:32:57

这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id，就能使用作为定位标志。如果在整理箱内部的某个抓取内容，往上找祖先节点的范围不会超出整理箱的定位区域。

如果要明确含有class和id，还是用手工做的定位标志映射吧。参看定位标志映射的教程：https://www.gooseeker.com/doc/article-344-1.html

ym · 发表于 2020-3-2 16:48:35

Fuller 发表于 2020-3-2 16:32
这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id，就能使用 ...

网页上商品、价格、店铺的节点的祖先节点都是有class属性的，但是定位选项修改为class后，只有商品引用了class定位，价格、店铺字段就没有自动引用class定位

用集搜客爬虫对淘宝搜索的网页快照做采集规则，修改定位选项后数据规则有些字段没更新到

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2020-3-2 16:48

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

用集搜客爬虫对淘宝搜索的网页快照做采集规则，修改定位选项后数据规则有些字段没更新到

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2020-3-2 16:48

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2020-3-2 16:48