本帖最后由 zla520 于 2017-8-5 00:33 编辑

我想采集到淘宝产品页面中的不同配置的价格和配置名。如何将采集下来的价格与配置名对应?
比如下图:

我想得到以下内容:
规格名                                     价格
脱毛+嫩肤=70万发                990.00元
脱毛+嫩肤+祛痘=105万发    1190.00元
脱毛=35万发                         790.00元


我写了以下规则,但有问题。无论如何设置,采集的配置名称混乱和重复。如下图。


规则1名:淘宝搜索采集翻页1
规则2名:淘宝店铺采集点击2
规则3名:淘宝店铺采集内容3

请打开规则帮我分析下,看看是哪里设置错误?





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-8-5 17:23

沙发
wangyong 版主 发表于 2017-8-5 10:22:52 | 只看该作者

要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“selected”
点击后的规则中的抓取内容做上定位标志映射,把选中的商品配置抓取下来

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
zla520 初级会员 发表于 2017-8-5 15:21:47 | 只看该作者
wangyong 发表于 2017-8-5 10:22
要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“ ...



抓取内容表达式://*[@class='J_Prop tb-prop tb-clear  J_Prop_Color ']/dd//*[@class='tb-txt']/a/span/text()
定位标志表达式://dl[contains(./dt/text(),'颜色分类')]//li//span//text()


这样设置不行呢。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
wangyong 版主 发表于 2017-8-5 16:05:03 | 只看该作者
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点
举报 使用道具
5#
zla520 初级会员 发表于 2017-8-5 16:42:06 | 只看该作者
wangyong 发表于 2017-8-5 16:05
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点



是查询到3个节点,但是采集下来的数据是相同的。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
wangyong 版主 发表于 2017-8-5 16:44:09 | 只看该作者
每个商品配置在点击后@class中就会发生变化包含“selected”
举报 使用道具
7#
zla520 初级会员 发表于 2017-8-5 17:10:10 | 只看该作者
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

做了点击后的规则中的抓取内容做上定位标志映射,也是相同数据的。使用这个表达式,也采集成相同的内容。请帮帮忙打打我的规则测试下。
//dl[contains(./dt/text(),'颜色分类')]//li//a//span//text()

举报 使用道具
8#
zla520 初级会员 发表于 2017-8-5 17:14:38 | 只看该作者
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

每个商品配置在点击后@class中就会发生变化包含“selected”
这种情况应该怎么设置呢?


举报 使用道具
9#
wangyong 版主 发表于 2017-8-5 17:23:49 | 只看该作者
观察选中节点和没选择节点的区别,写只定位到选中节点的xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 14:49