本帖最后由 ym 于 2020-3-2 16:33 编辑

新版的集搜客采摘浏览器把淘宝搜索存成网页快照后,再用旧版集搜客爬虫对它做采集规则,把定位选项修改为class,然后点测试,在数据规则里只有第一个字段“商品”是改成了用class定位,其余两个字段“价格”“店铺”的规则依然是修改之前的绝对定位xpath,这3个字段在网页上都是有class属性值的,为什么数据规则没有全部改为class定位呢?
QQ截图20200302152731.png
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-3-2 16:48

Fuller 管理员 发表于 2020-3-2 16:32:57 | 显示全部楼层
这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id,就能使用作为定位标志。如果在整理箱内部的某个抓取内容,往上找祖先节点的范围不会超出整理箱的定位区域。

如果要明确含有class和id,还是用手工做的定位标志映射吧。参看定位标志映射的教程:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
ym 版主 发表于 2020-3-2 16:48:35 | 显示全部楼层
Fuller 发表于 2020-3-2 16:32
这个问题跟网页快照无关。

如果爬虫自动计算出来的html上的定位节点的祖先节点含有class或者id,就能使用 ...

网页上商品、价格、店铺的节点的祖先节点都是有class属性的,但是定位选项修改为class后,只有商品引用了class定位,价格、店铺字段就没有自动引用class定位
QQ截图20200302164552.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:07