集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不需要做采集规则,非常简单快捷。 我们以前程无忧51job的招聘岗位信息采集为例,讲解快捷采集的使用过程。 1. 首先下载安装Gooseeker数据管家(增强版爬虫软件) 数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。 关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2. 在Gooseeker数据管家,打开集搜客官网 https://www.gooseeker.com 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。 3. 进入快捷采集 点击数据管家左侧边栏的“快”按钮,进入快捷采集。 4. 选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页 比如我们要采集前程无忧_岗位关键词搜索列表页面,选择 招聘 – 前程无忧 – 前程无忧_岗位关键词搜索列表 如下图所示,选好快捷工具后,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。 或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。 Tips:针对不同的招聘网站,还有其它的快捷采集工具,比如:智联招聘, 猎聘网,中华英才网,拉勾网 5. 操作步骤 我们以前程无忧_岗位关键词搜索列表快捷工具为例,讲解操作过程。 5.1 粘贴网址,启动采集 比如我们要采集“软件测试工程师”这个岗位的搜索列表页面。 在前程无忧网站上,用Ctrl+c 复制要采集的页面链接,用Ctrl+v粘贴到前程无忧_岗位关键词搜索列表快捷工具的网址输入栏,选择页数后,启动采集。 5.2 采集中的爬虫窗口 点击获取数据之后, 数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 5.3 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。 采集完成后,采集状态会从黄色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查
6. 采集到的数据 前程无忧_岗位关键词搜索列表快捷工具采集到的数据截图: 7. 继续采集 前程无忧_岗位详情信息 如果还想继续深入到岗位详情页面去采集数据,可以选择前程无忧_岗位详情信息快捷工具,并选择输入多条网址。 把上面数据表里的岗位详情页的链接用Ctrl+c批量复制下来,用Ctrl+v粘贴到这里,点击确定,就可以批量采集岗位详情的信息了。采集、打包下载过程和上面类似。 |