配套软件版本:V9及更低 集搜客网络爬虫软件 新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《启动数据采集》 注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 一、两种操作方式(观看视频) 在GS爬虫浏览器做好采集规则后,就可以打开DS打数机采数据,下面介绍的是手工运行的两种方式,另外关于自动运行采集的方式可以查阅《DS打数机如何采集数据》的方式三和方式四。 二、操作步骤 方式一:【针对自己定义规则的用户】存规则,爬数据 做完采集规则并保存后,点击GS爬虫浏览器右上角的“爬数据”按钮,就会自动弹出爬虫窗口,直接采集样本网页,用的是测试窗口,菜单项较少,主要是用来验证抓取规则的正确性。详细的操作截图,见采集网页数据第三步3.3 方式二:【针对直接运行已有规则的用户】DS打数机单搜/集搜 2.1,打开DS打数机(在GS浏览器的右上角点击“DS打数机”运行;火狐版爬虫是在工具菜单里点击“DS打数据”运行)。 2.2,如果你做了很多规则,可以在打数机搜索这个规则的主题名,可以用*模糊匹配(前、后、中都可以含有*号)。 2.3,右击规则的主题名,弹出菜单,选择“统计线索”,可以看到有多少个线索(网页地址)等待抓取,记住这个数目。 2.4,点击这个规则的单搜按钮,要求输入线索数,把上一步统计得到的待抓取线索数量,输入,打数机右侧的窗口开始采集数据,类型是管理窗口。如果同时点击集搜,就会再多弹出一个集搜窗口(一个简版的打数机窗口,没有管理功能),两个窗口一起采集数据。 Tips:每个规则都有“单搜”和“集搜”按钮。简单概括一下,对于一个规则,单搜只运行一个爬虫窗口,相当于一个手干活,集搜可以再运行一个爬虫窗口,相当于两个手干活,会干得快一些。对于多个规则来说,打数机最多可以同时运行20个规则,但是只能有1个规则是单搜窗口,其它19个是集搜窗口。 单搜和集搜的使用说明与区别参看《集搜客专有名词:单搜和集搜》。 2.5,提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采完一遍了。如果要再次采集,右击主题名,选择管理线索->激活所有线索;如果要采集其他相同结构的网页,选择添加,再把多个网址拷贝进去,就可以批量采集了。更多操作见《如何管理规则的线索》 三、DS打数机窗口类型介绍 DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,请注意鉴别使用
各个窗口的分布结构是一样的,只是对不同部分做了隐藏。简介如下:
上篇文章:《采集网页数据》 下篇文章:《xml转换为excel》 |