快捷导航

模拟点击切换到另一标签窗口采数据

2015-10-30 14:58| 发布者: HJLing| 查看: 11350| 评论: 15

摘要: 以采集蘑菇街商品累计评论为例,网页初始状态下加载不显示商品评论内容,需要点击累计评论才会显示,这种情况下就需要做模拟点击。 在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责 ...

以采集蘑菇街商品累计评论为例,网页初始状态下加载不显示商品评论内容,需要点击累计评论才会显示,这种情况下就需要做模拟点击。

在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。

模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。

注释1:本文所演示的模拟点击第一级规则,可到资源库下载学习:模拟点击_第一级

注释2:本文所演示的模拟点击第二级规则,可到资源库下载学习:模拟点击_第二级

一、创建第一级规则

第一级负责模拟点击的规则整理箱中可以选择不抓取任何内容,但是为了模拟点击成功率高,我们通常选择抓取需要点击的网页上的按钮并勾上关键内容,以保证模拟点击成功执行。

1.映射抓取内容

图1

如图1所示,具体操作如下

1. 将需要点击的网页内容做内容映射到抓取内容中,并勾选关键内容。

2.规划模拟点击路线

图2

如图2所示,具体操作如下

1. 跳转到爬虫路线工作台。

2. 点击新建,创建一条线索

3. 选择线索类型,模拟点击跟翻页是一样的,选择记号线索

4. 勾选连贯抓取,表示在执行抓取任务时,爬虫采完本级规则的网页后,直接点击记号并跳转到下一级规则的网页进行抓取。

5. 勾选连贯抓取后,目标主题名默认是当前规则的主题名,要注意的是,在这里不能填写当前规则的主题名,而是填写下一级的规则主题名(注意:填写完下一级规则主题名后,需点击按钮‘谁在用’查看该主题名是否被占用,否则填写了被占用的主题名将无法保存规则),下一级规则虽然现在还没有创建,在这里填上后表示预定。

3.做记号映射

图3

如图3示,具体操作如下

1. 点击目标按钮,自动定位到网页标签节点,展开节点,找到包含“累计评价”的text节点。

2. 右击text节点,线索映射→记号线索,可以看到“累计评论”自动填入到记号值中。

3. 如果记号值前后有空格,就不要勾选全匹配,并且删掉前后的空格,否则遇到空格数量不一致的网页,就会采集失败。

4.做线索范围映射

图4

如图4,具体操作如下

1. 择包含点击按钮且有记号值的区块节点,记号值我们通常选择有class值的节点,因为id值易发生变化,class值较为稳定。由text节点往上级寻找即可找到,包含点击按钮且有记号值的区块节点。

2. 将节点做线索范围的映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。

3.和翻页规则相同,将线索定位首选项改为偏好@class,旧版软件的修改方式:文件菜单栏→线索定位→偏好@class。新版软件的修改方式:爬虫路线定位→偏好class。

存规则后第一级规则就完成了。


二、 创建第二级规则

保存完第一级规则后,可以将MS谋数台关掉,然后重新打开MS谋数台,开始编辑第二级规则;也可以点击文件菜单->新建,待工作台被清空后,就可以制作新规则。

1.填写第一级中预定的第二级规则主题名

图5

如图5,具体操作如下

1. 填写已经在第一级中预定的第二级规则主题名,在第一级规则模拟点击后会直接调用第二级规则进行抓取。

2. 点击查重后可查看刚填写的主题名是否是在第一级规则中预定的第二级规则。

3. 显示该名已经被预定且可编辑。

2.取消内容定位,将网页跳转到抓取页

图6

如图6,具体操作如下

1. 取消内容定位,取消内容定位后可以点击网并跳转

2. 点击“累计评价”按钮,等待抓取内容完全加载

3. 看到抓取内容完全显示

4. 重新勾选内容定位,开始映射抓取内容

5. 点击文件菜单栏→刷新网页结构,就可以做规则了

3.映射抓取内容

图7

如图7,具体操作如下

将要采集的数据映射到整理中并做样例复制后,存规则,这时就完成了模拟点击需要的两级规则。

Tips1:存规则后运行第一级规则进行采集,模拟点击是连贯动作,只需运行第一级规则,爬虫采集时就会自动调用第二级规则进行抓取。注意:不要单独运行第二级规则,因为没有点击就不会有第二级要采集的网页数据,因而会采集失败。

Tips2:运行DS打数机之前,要设置滚屏参数,把滚屏功能打开,选择菜单 配置-〉滚屏参数,把滚屏次数设置成>0的数字,比如,2

Tips3:不仅要抓取网页上的第一条数据,还要把结构相同的数据也抓取下来,就要做样例复制映射,参考教程:样例复制

Tips4:不只想要抓取模拟点击后的页面内容,还要翻页后的内容,参考教程:怎样抓取翻页后的数据

Tips5:想要抓取当前页面的内容,再深入到下一页抓取商品详情页的内容参考教程:怎样深入多层级网页采集数据

Tips6: 加载模拟点击的下一级规则,需要点击到做规则的样本页面后再后续分析,具体操作参考:切换页签后加载规则

29

鲜花
1

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (31 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-3-15 22:18
Trimax: 为啥按照这么做的,老是跳不到第二级规则?
运行第一级的时候,DS打数机的滚屏参数要设置,滚屏次数设置成>0的数字
评论 Trimax 2017-3-15 22:01
为啥按照这么做的,老是跳不到第二级规则?
评论 Fuller 2016-11-10 16:55
omelet: 执行第一级主题后,为什么我第二级主题没有自动执行?
我估计你没有打开DS打数机的滚屏功能,选择菜单 配置-》滚屏参数,把滚屏次数设置成>0的数字,这个网站设置成2基本上就可以
评论 omelet 2016-11-10 16:38
执行第一级主题后,为什么我第二级主题没有自动执行?
评论 omelet 2016-11-10 16:34
wbog20100319: 你好,在抓取旺旺名字时,因为被隐藏了内容,怎么才能抓取全名那
这是淘宝限制,没法抓
评论 HJLing 2016-8-30 12:00
summous: 我下载了例子,例子里的第二级规则可以直接运行,为什么呢?
单独运行第二级规则,页面虽然没有显示评论的内容,但实际上在HTML里可以查看到评论的信息,所以就直接能采集
评论 summous 2016-6-28 11:29
我下载了例子,例子里的第二级规则可以直接运行,为什么呢?
评论 Fuller 2016-4-10 15:53
wbog20100319: 你好,在抓取旺旺名字时,因为被隐藏了内容,怎么才能抓取全名那
网页上的内容,如果被隐藏了,那就抓不到
评论 wbog20100319 2016-4-10 14:31
你好,在抓取旺旺名字时,因为被隐藏了内容,怎么才能抓取全名那
评论 Fuller 2016-3-26 20:59
yonkoo: 想问一下如果有多级标签页,如何实现采集完第一个标签页后再采集第二个、第三个标签页?
在模拟点击教程里面,点击一个标签后,就用另一个抓取规则来抓取内容,那么在这个抓取规则中可以再定义一个点击第二个标签页的模拟点击。以此类推。请注意,多级主题串在一起的话,必须使用V5.7.0版本,以前版本会有问题
评论 yonkoo 2016-3-26 20:04
想问一下如果有多级标签页,如何实现采集完第一个标签页后再采集第二个、第三个标签页?
评论 Fuller 2016-3-4 19:00
申洁: 运行是集搜吗?为什么运行着就不动了
我估计DS打数机没有打开滚屏功能,那样就点不上那个tab标签,在配置菜单中有“滚屏参数”,最简单的设置就是两个参数都输入2
评论 申洁 2016-3-4 18:23
运行是集搜吗?为什么运行着就不动了
评论 Fuller 2016-1-24 14:59
flyingice: 为啥第二级规则不能直接运行啊
因为在运行第二级之前,需要先点击一下,如果单独运行第二级,那就需要人工去点击
评论 flyingice 2016-1-24 13:59
为啥第二级规则不能直接运行啊

查看全部评论(15)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-24 12:48