快捷导航
本帖最后由 zla520 于 2017-8-5 00:33 编辑

我想采集到淘宝产品页面中的不同配置的价格和配置名。如何将采集下来的价格与配置名对应?
比如下图:
snipaste_20170805_002019.jpg
我想得到以下内容:
规格名                                     价格
脱毛+嫩肤=70万发                990.00元
脱毛+嫩肤+祛痘=105万发    1190.00元
脱毛=35万发                         790.00元


我写了以下规则,但有问题。无论如何设置,采集的配置名称混乱和重复。如下图。
QQ截图20170805002913.jpg

规则1名:淘宝搜索采集翻页1
规则2名:淘宝店铺采集点击2
规则3名:淘宝店铺采集内容3

请打开规则帮我分析下,看看是哪里设置错误?





举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-8-5 17:23

wangyong 版主 发表于 2017-8-5 10:22:52 | 显示全部楼层
a.png
要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“selected”
点击后的规则中的抓取内容做上定位标志映射,把选中的商品配置抓取下来
举报 使用道具
zla520 初级会员 发表于 2017-8-5 15:21:47 | 显示全部楼层
wangyong 发表于 2017-8-5 10:22
要采每个商品配置对应的价格,就要抓取点击后的商品配置
每个商品配置在点击后@class中就会发生变化包含“ ...

43.jpg

抓取内容表达式://*[@class='J_Prop tb-prop tb-clear  J_Prop_Color ']/dd//*[@class='tb-txt']/a/span/text()
定位标志表达式://dl[contains(./dt/text(),'颜色分类')]//li//span//text()


这样设置不行呢。
举报 使用道具
wangyong 版主 发表于 2017-8-5 16:05:03 | 显示全部楼层
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点
举报 使用道具
zla520 初级会员 发表于 2017-8-5 16:42:06 | 显示全部楼层
wangyong 发表于 2017-8-5 16:05
xpath写的不对,用谋数台里xpath检验器检查会定位到哪几个节点

snipaste_20170805_163813.jpg

是查询到3个节点,但是采集下来的数据是相同的。
snipaste_20170805_164120.jpg


举报 使用道具
wangyong 版主 发表于 2017-8-5 16:44:09 | 显示全部楼层
每个商品配置在点击后@class中就会发生变化包含“selected”
举报 使用道具
zla520 初级会员 发表于 2017-8-5 17:10:10 | 显示全部楼层
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

做了点击后的规则中的抓取内容做上定位标志映射,也是相同数据的。使用这个表达式,也采集成相同的内容。请帮帮忙打打我的规则测试下。
//dl[contains(./dt/text(),'颜色分类')]//li//a//span//text()

举报 使用道具
zla520 初级会员 发表于 2017-8-5 17:14:38 | 显示全部楼层
wangyong 发表于 2017-8-5 16:44
每个商品配置在点击后@class中就会发生变化包含“selected”

每个商品配置在点击后@class中就会发生变化包含“selected”
这种情况应该怎么设置呢?


举报 使用道具
wangyong 版主 发表于 2017-8-5 17:23:49 | 显示全部楼层
观察选中节点和没选择节点的区别,写只定位到选中节点的xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 百度推广后台数据DIY
  • 采集表单中的input动态内容
  • 采用刷新动作实现手机页面采集
  • 通过划定滚轮范围实现精确点击手机页面
  • 放大或者缩小页面便于采集手机网页内容

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-12-18 03:35