快捷导航

用GooSeeker爬虫实现自动点击抓取淘宝sku库存和价格信息

2018-5-24 11:22| 发布者: xandy| 查看: 538| 评论: 0|原作者: 集搜客GooSeeker

摘要: 我们在像淘宝京东这种电商网站购物时,通常有很多款式可以选择,比如图案、尺码、颜色等等,选了任意一种组合,这个商品对应的sku库存值就会跟着改变,价格有时候也会变,比如手机和电脑选择不同配置规格,价格就会 ...

我们在像淘宝京东这种电商网站购物时,通常有很多款式可以选择,比如图案、尺码、颜色等等,选了任意一种组合,这个商品对应的sku库存值就会跟着改变,价格有时候也会变,比如手机和电脑选择不同配置规格,价格就会不一样;

如果你是在研究商品的组合、价格、sku等信息,用手工点击和拷贝的方法来收集这些信息,就显得太浪费时间和人力了,知道数据采集的人都已经用上GooSeeker爬虫了,它具有独特的连续动作功能,可以模拟人在浏览网页时的操作行为,只需要指定要点击的属性对象,就可以让爬虫自动点击各种属性组合,实现机器自动点击,从而爬取各种商品组合下对应的信息。下面就来教大家用GooSeeker爬虫的连续动作来做规则,实现自动点击抓取sku库存和价格信息。

操作流程

要实现自动点击抓取sku库存,爬虫需要分两级规则来实现,第一级规则是用来点击尺码和颜色,第二级规则是采集sku库存。

一、第一级规则,设置连续动作

1、首先建立第一级主题的规则,这里我们设置一级规则的主题名为''淘宝sku采集1",第一级规则可以只做连续动作不抓信息,但是为了让爬虫能判断是否执行过采集,我们通常会在网页上任意标注一个信息作为抓取目标。

2、然后开始设置连续动作,点击切换到连续动作窗口下,我们需要爬虫依次点击尺码和颜色,也就是说,对应尺码和颜色分别要有一个点击动作,所以一共要做两个点击动作。

3、首先在目标主题名输入框输入第二级规则的主题名,就表明这个连续动作是指向第二级规则。比如我们这里的第二级规则主题名是''淘宝sku采集2",那么就在这个目标主题名中输入''淘宝sku采集2"。

4、然后点击新建按钮来创建第一个动作,动作类型选择点击,这是用来点尺码的,接下来要用xpath来指定爬虫的点击对象,xpath可以自己写,也可以点击尺码属性,通过左侧的显示xpath功能,生成能定位到所有尺码属性的xpath,再点击中间的搜索按钮,检验这个xpath能否定位到每一个尺码,然后把xpath填入到定位表达式中,最后再给动作命名一个名称,说明这一步动作是用来干嘛的,方便以后修改,不填也没有关系。

5、由于每一个新建的动作默认都是勾上必做的,顾名思义,必做是指每次循环都要执行的动作。如果设置的两个点击动作都是默认必做,它的执行流程就是如图(1)所示,每次都会先点击尺码,再点击颜色,重复点击尺码会画多点时间;而我们想要的是图(2)的执行流程,点击一次尺码后,先把所有颜色都点一遍,再点下一个尺码,这样可以更快遍历完所有组合。

6、要实现图2的点击流程,只要对尺码的点击动作不勾必做,就是在高级设置里取消勾必做,就会执行图(2)的点击流程。

7、设置好之后,第一个点击动作就制作好了。接下来就来创建第二个点击动作,大致的步骤前面一样,最后,点击右上角存规则按钮保存,第一级规则也就制作完成了。

二、制作第二级规则,抓取目标信息

1、第一级规则保存好之后就可以开始创建第二级规则,点击菜单栏中的规则-》新建,弹出提示"工作台上有内容,清空吗?",点击确定,就可以做新规则。

2、然后取消勾选内容定位,在浏览器窗口中选中第一个尺码和第一个颜色,让网页是处在执行点击动作后的状态,再勾上内容定位,然后点击菜单栏中的规则-》刷新页面结构来刷新网页结构,接下来就可以开制作第二级规则了。

Ps:(如果是在定义规则模式下制作规则也可以这么做,点击"定义规则"恢复到普通网页模式,再选中第一个尺码和第一个颜色后,然后再次点击"定义规则"切换到做规则模式)

3、输入第二级规则主题名''淘宝sku采集2"(这个规则主题名要与第一级规则的目标主题名一致),再标注需要采集的信息,这里标注了5个字段,分别是标题,价格,尺码,颜色,库存。

4、为了能精确采集到对应的尺码和颜色,这里需要给尺码和颜色这两个字段自定义xpath来实现精确定位,在高级设置的自定义xpath中,选择文本内容,在抓取内容表达式中输入能定位到相应采集对象的xpath,这里尺码的xpath是://*[@class='tm-clear J_TSaleProp ']//*[@class='tb-selected']/a/span,颜色的xpath是://*[@class='tm-clear J_TSaleProp tb-img ']//*[@class='tb-selected']/a/span,在定位标志表达式里填点就行。

5、定义好后点击测试,没问题就可以保存规则了。

三、运行爬虫抓取数据

因为连续动作是有连贯性的,运行规则时只需要启动运行第一级规则就可以了。运行采集完之后就可以把数据导入到会员中心转成Excel再导出。


鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-6-20 01:48