DS打数机采集数据

2016-9-28 11:19| 发布者: ym| 查看: 30434| 评论: 0

摘要: DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,分别是管理窗口、试抓窗口、集搜窗口、爬虫群窗口。各个窗口的分布结构是一样的,只是菜单栏权限上有所不同。简介如下: 顶部是菜单栏,用于设置和 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《启动数据采集


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、两种操作方式(观看视频)

在GS爬虫浏览器做好采集规则后,就可以打开DS打数机采数据,下面介绍的是手工运行的两种方式,另外关于自动运行采集的方式可以查阅《DS打数机如何采集数据》的方式三和方式四。


二、操作步骤


方式一:【针对自己定义规则的用户】存规则,爬数据

做完采集规则并保存后,点击GS爬虫浏览器右上角的“爬数据”按钮,就会自动弹出爬虫窗口,直接采集样本网页,用的是测试窗口,菜单项较少,主要是用来验证抓取规则的正确性。详细的操作截图,见采集网页数据第三步3.3


方式二:【针对直接运行已有规则的用户】DS打数机单搜/集搜

2.1,打开DS打数机(在GS浏览器的右上角点击“DS打数机”运行;火狐版爬虫是在工具菜单里点击“DS打数据”运行)。

2.2,如果你做了很多规则,可以在打数机搜索这个规则的主题名,可以用*模糊匹配(前、后、中都可以含有*号)。

2.3,右击规则的主题名,弹出菜单,选择“统计线索”,可以看到有多少个线索(网页地址)等待抓取,记住这个数目。

2.4,点击这个规则的单搜按钮,要求输入线索数,把上一步统计得到的待抓取线索数量,输入,打数机右侧的窗口开始采集数据,类型是管理窗口。如果同时点击集搜,就会再多弹出一个集搜窗口(一个简版的打数机窗口,没有管理功能),两个窗口一起采集数据。

Tips:每个规则都有“单搜”和“集搜”按钮。简单概括一下,对于一个规则,单搜只运行一个爬虫窗口,相当于一个手干活,集搜可以再运行一个爬虫窗口,相当于两个手干活,会干得快一些。对于多个规则来说,打数机最多可以同时运行20个规则,但是只能有1个规则是单搜窗口,其它19个是集搜窗口。

单搜和集搜的使用说明与区别参看《集搜客专有名词:单搜和集搜》


2.5,提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采完一遍了。如果要再次采集,右击主题名,选择管理线索->激活所有线索;如果要采集其他相同结构的网页,选择添加,再把多个网址拷贝进去,就可以批量采集了。更多操作见《如何管理规则的线索》


三、DS打数机窗口类型介绍

DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,请注意鉴别使用

  1. 管理窗口:在GS爬虫浏览器的工具条上点击“DS打数机”按钮,或者在火狐浏览器中选择菜单“工具”-〉“DS打数机”,这样启动起来的是管理窗口,有最全的菜单和按钮,所有的配置操作应该在这个窗口下进行;
  2. 试抓窗口:点击MS谋数台上的“爬数据”按钮,或者在GS爬虫浏览器“定义规则”状态下点击工具条上的“爬数据”按钮;
  3. 集搜窗口:点击DS打数机上的“集搜”按钮启动;
  4. 爬虫群窗口:选择DS打数机的菜单“爬虫群”,先“配置”爬虫群以后,再“运行”;

各个窗口的分布结构是一样的,只是对不同部分做了隐藏。简介如下:

  • 顶部是菜单栏,用于设置和控制采集;
  • 左侧是操作窗口,显示主题名和启动采数据,双击右边沿小三角图标可以隐藏or展开;
  • 右侧是内嵌的浏览器,当采集数据的时候,在这里可以看到一页页网页自动显示出来;
  • 底部是日志窗口,会记录采集失败的情况,双击上边沿小三角图标可以隐藏or展开



上篇文章:《采集网页数据》                                                                             下篇文章:《xml转换为excel》



若有疑问可以集搜客爬虫软件
3

鲜花
1

握手

雷人
2

路过
7

鸡蛋

刚表态过的朋友 (13 人)

上一篇:采集网页数据下一篇:查看数据结果

相关阅读

最新评论

GMT+8, 2024-11-21 16:44