集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。 我们以京东为例,讲解快捷采集的使用过程。 1. 首先下载安装Gooseeker数据管家(增强版爬虫软件) 数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。 关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2.在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。 3. 登陆京东 根据使用经验,采集京东之前,最好登陆京东,才能持续浏览完整内容。 在数据管家新开一个页签,在新页签打开京东 https://www.jd.com/,并登陆一个京东账号。 4. 进入快捷采集 点击集搜客官网上的快捷采集按钮,进入快捷采集。 5. 选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页。 比如我们要采集京东商品购买咨询页面,选择 电商 - 京东 - 京东商品购买咨询。 如下图所示,可以打开示例页面,或者浏览示例数据,进一步了解选定的快捷工具是否满足要求。 Tips:京东的快捷采集工具有很多种,对应不同的数据采集需求,包括商品搜索列表,商品详情,商品评论,商品图片等等,其中商品评论,又细分了好几个工具,比如专门采集差评的工具,中评的工具,按时间采集的评论工具等等。 6. 操作步骤 我们以京东评论快捷工具为例,讲解操作过程。 6.1粘贴链接,启动采集 比如,我们要采集这个京东商品的评论 https://item.jd.com/3488761.html,选定京东评论快捷工具后,把此链接用Ctrl+v粘贴到网址输入栏,并启动采集。 6.2 采集中的爬虫窗口 点击获取数据之后, 数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。 6.3 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。 采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 添加的链接是否和样本页面类似; 需要提前登陆的网站,是否已经登陆; 再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7. 采集到的数据 京东评论采集的样例数据: 8. 快捷采集工具的复合使用 上面我们采集到了一个商品的评论,还可以批量采集很多商品的评论。 比如,我们通过京东商品搜索列表快捷工具采集到的数据中有一列是商品的网址链接。把这一列的数据用Ctrl+c拷贝下来,然后用Ctrl+v批量粘贴到京东评论快捷工具。添加完成,点击确定,采集窗口开始逐个采集各商品的评论。等采集完成,打包下载数据。和上面的步骤类似。 |