如何使用快捷采集-以马蜂窝游记数据采集为例

2021-6-18 18:02| 发布者: Fuller| 查看: 10836| 评论: 0

摘要: 集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。我们以马蜂窝游记采集为例,讲解快捷采集的使用过程。1. 首先下载安装Gooseeker数据管家 ...

集搜客针对不同的网站(网页)提供了很多快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。

我们以马蜂窝游记采集为例,讲解快捷采集的使用过程。


1. 首先下载安装Gooseeker数据管家(增强版爬虫软件)

数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。

安装完毕,数据管家会自启动。请按提示,登陆爬虫账号。

关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。


2.在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com

登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致),并检查是否已经连上服务器(绿勾连接,红勾未连接)。


3. 登陆马蜂窝

根据使用经验,采集马蜂窝之前,最好登陆马蜂窝网站,才能持续浏览完整内容。

在数据管家新开一个页签,在新页签打开马蜂窝网站 https://www.mafengwo.cn/,并登陆一个马蜂窝账号。

4. 进入快捷采集

点击数据管家左侧边栏的“快”按钮,进入快捷采集。

5. 选择合适的快捷工具

根据要采集的网页,选择 类别 - 网站 - 网页。

比如我们要采集马蜂窝游记列表页面,选择 旅游 -马蜂窝 -马蜂窝游记采集_列表

如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。


Tips:马蜂窝的快捷采集工具有很多种,对应不同的马蜂窝页面,包括游记详情游记评论景点列表详情评论酒店列表酒店详情评论问答列表详情等。也有其它旅游网站的快捷工具


6. 操作步骤

我们马蜂窝游记列表页面采集工具为例,讲解操作过程。

6.1 粘贴链接,启动采集

比如,我们要采集目的地-山东-青岛-游记 ,在马蜂窝网站上,用Ctrl+c 复制这个链接https://www.mafengwo.cn/yj/10444/,用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。




6.2 采集中的爬虫窗口

点击获取数据之后,

数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。

6.3 打包下载数据

数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。

采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。


如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查

添加的链接是否和样本页面类似;

需要提前登陆的网站,是否已经登陆;

再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。


7. 采集到的数据

马蜂窝游记列表快捷工具采集到的数据:


8. 快捷采集工具的复合使用

上面我们采集到马蜂窝游记列表页面上很多游记的数据,比较值得注意的一个字段是游记链接,这是游记详情页面的链接,我们可以把这列数据用Ctrl+c拷贝下来,然后用Ctrl+v批量粘贴添加到马蜂窝游记详情工具,就可以批量采集到游记详情信息。




可以看到,通过多个快捷工具的复合使用,能采集到更大批量的数据。

1

鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (2 人)

最新评论

GMT+8, 2024-11-21 19:20