GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

自动回退返回上级页面-以懂车帝采集为例

2021-3-26 16:27| 发布者: Fuller| 查看: 11974| 评论: 0

摘要: 当网页上的超链接没有独立网址，而是一段JavaScript代码，比如：onclick=”javascript:void(0)”，点击超链接后，当前网页会切换成新网页的信息。这种情况下，只能用连续动作的点击动作，进入超链接网页里采集信息， ...

配套软件版本：V10及更高数据管家——增强版网络爬虫

老版本对应教程：V9及更低集搜客网络爬虫的对应教程是《连续动作：设置自动返回上级页面》

当网页上的超链接没有独立网址，而是一段JavaScript代码，比如：onclick=”javascript:void(0)”，点击超链接后，当前网页会切换成新网页的信息。这种情况下，只能用连续动作的点击动作，进入超链接网页里采集信息，然后用回退动作，返回到原来的页面，继续点击下一个超链接。

注意：对于具有独立网址的超链接，做层级采集是最简单的方法。如果没有独立网址，并且点击超链接，弹出新的页签窗口，原来的网页还在，这种情况下要用飞掠模式。

下面就以懂车帝为例，讲解从车型列表页依次进入各车型页面，抓取车子的数据。

案例

第一级任务：回退教程-懂车帝-第一级（可点击下载）

第二级任务：回退教程-懂车帝-第二级（可点击下载）

样本网址：https://m.dcdapp.com/motor/m/car_series/list?brand_id=2&show_city_button=

第一级采集内容：车名、报价、指导价

第二级采集内容：车名、参数、全国价、价格区间、车型、销售商价格、官方指导价

1. 定义第一级任务

1.1 打开网页，进入任务定义状态

1.2 标注字段

对第一个车标注要抓取的字段，具体的标注操作见《采集网页数据》。

1.3 样例复制

要抓取网页上所有车的信息，需要做样例复制。或者对整理箱节点做定位。可以参见前面的教程。

1.4 设置点击动作

1.4.1 进入动作台4，点击新建

选择点击动作。

做了点击后，到了新的页面，要执行的任务名：回退教程-懂车帝-第二级

这个任务名要记下来，后面做第二级任务的时候要用到。

1.4.2 交互位置的xpath

交互位置，就是点击哪个位置，会进入新的页面。本例中，点击车子的图片，会进入新的页面。

怎么找图片的xpath？

点击车子的图片，光标对应到下面的DOM节点。这个节点有比较特殊的class值，生成xpath时，选择偏好class。

xpath生成后，要搜索一下这个xpath，是否对应到所有的车子图片。这个页面上有32个车，所以搜索出的位置数应该是32。再点击上下箭头，看看是否对应到每辆车的图片。

经过上面的检验，这个xpath是正确的，把它复制拷贝到交互位置。延迟5秒。表示做完点击后，等待5秒，爬虫再开始采集。

1.5 测试保存第一级任务

转到工作台2，测试任务，没有问题，保存。现在不要采集，因为第二级任务还没有设置。

2. 退出第一级任务

第一级任务设置完成后，在设置第二级任务之前，先退出第一级任务。

橙色的退出按钮在页面右上方。

3. 定义第二级任务

3.1 跳转到新的网页，进入任务定义状态

点击第一个车，跳转到新的页面。然后进入任务定义状态。

3.2 字段标注和样例复制

在这个网页上标注要采集的字段，做样例复制。这里限于篇幅，就不讲解了。

3.3 设置回退动作

采集完这个车之后，需要再回到原来的页面，继续点击下一个车，到下一个车的页面去采集数据。

所以需要一个回退动作，回退到原来的页面。

到工作台4，建立回退动作。步骤如下图所示。注意，回退动作后，回到原来的页面，执行原来的第一级任务。

3.4 测试保存第二级任务

到工作台2，测试第二级任务，没有问题，保存。

4. 启动采集

点击左侧栏的任务管理按钮，到任务管理页面，启动第一级任务，第二级任务会自动执行。

第一级任务的待采集网址是1，线索数是1。

然后，爬虫窗口弹出来，网页在列表页和各个车型的网页来回切换，采集数据。采集完成后，按提示，导出excel数据。

采集到的第二级任务的示例数据：

上篇文章：《自动选择下拉菜单采集数据-以知网为例》 下篇文章：《自动滚屏采集瀑布流网页-以今日头条新闻为例》

刚表态过的朋友 (1 人)

joywang

上一篇：自动选择下拉菜单采集数据—以知网为例下一篇：下载安装集搜客数据管家（增强版爬虫软件）

最新评论

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2025-7-1 04:49