小的在抓取淘宝商品SKU价格和库存数据。
设置连续动作也没有问题,但是采集下来的数据总是不准。
样本页面是:https://detail.tmall.com/item.htm?id=537270492801&scm=1007.12144.81309.23864_0&sku_properties=122216547:65793


难点就在于,如图上的SKU图标是有两种状态。即:选中和未选中。
那么连续动作设计时,因为会循环点击。先点一下1.5M再点颜色分类,采集数据;再点一下1.5M再点第二个颜色分类,采集数据。以此类推。
问题就在于,因为这个图标有两种选择状态,点击第一下的时候是选择上了,采集数据正常,但是点击第二下的时候就变成了未选择状态。采集的数据就有错误了。

于是,我想到了一个折中的方案。把数量设置点击2次。但是不够好,因为适应性会很差。也会弄一堆无用的文件。

大神们有什么办法能解决这一块儿呢?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-7-16 08:52

沙发
gz51837844 管理员 发表于 2017-7-15 17:08:11 | 只看该作者
你的规则名称是什么?
当前做动作的主题名如果是A, 那么连续动作的目标主题名可以指向另一个主题B, 在主题B里进行内容抓取
举报 使用道具
板凳
gooseeker112233 初级会员 发表于 2017-7-16 08:52:54 | 只看该作者
gz51837844 发表于 2017-7-15 17:08
你的规则名称是什么?
当前做动作的主题名如果是A, 那么连续动作的目标主题名可以指向另一个主题B, 在主 ...

就是做的两个主题的,一个负责做连续动作,另一个负责抓取。

连续点击动作是这样的:
假设第一个动作A有2个按钮需要点击,第二个动作B有4个按钮点击。

那么程序会先点击A的第一个按钮,再点击B的第一个按钮,调用主题抓内容。
然后再点击A的第一个按钮,再点击B的第二个按钮,调用主题抓内容。

问题来了。
淘宝的SKU按钮点一下是选取,再点一下就是取消选择。并不像有的按钮无论怎么点击,只要是点击这个按钮就是选择状态。

我后来使用的方案是在做连续动作之前,先做记号点击。这样就可以实现A的第一个按钮只点击一次。

还有其它的好方案吗?

大家可以去我的样本页面测试一下,看看怎么能抓取下来完整的SKU价格数据。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 01:55