集搜客的工作原理

2015-10-13 18:07| 发布者: ym| 查看: 34190| 评论: 0

摘要: 一、集搜客组成结构 集搜客是由服务器和客户端两部分组成,MetaCamp服务器是规则存储库,DataStore服务器是待抓网址库,MS谋数台是用来制作网页抓取规则的,DS打数机就是用来采集网页数据的,如图1-1。 图1-1 集搜客 ...

一、集搜客组成结构

目前集搜客爬虫软件分为两个版本,免费的社区版和独立的企业版。下面主要介绍集搜客网络爬虫的工作原理,集搜客是由服务器和客户端两部分组成,服务器是用来存储规则和线索(待抓网址),MS谋数台是用来制作网页抓取规则的,DS打数机则是用来采集网页数据的。

图1 集搜客的组成结构

二、集搜客的工作原理

1、用MS谋数台制作好规则后,规则会保存在集搜客的服务器中,同时会把样本网址作为一条线索(待抓网址)也保存在服务器中。PS:规则虽然保存在服务器中,但是随时都可以查看修改

2、DS打数机采集数据,就是调用做好的规则采集待抓网址的网页数据的过程,详情可参考文章DS打数机如何采集数据

3、采集成功的话就会在本地文件夹DataScraperWorks中生成结果文件

4、如果是层级规则,除了生成结果文件,抓到的网址作为下一级规则的待抓网址,会被存在服务器中,采集数据时就会按顺序执行。规则的待抓网址也可以人工添加,详情参考文章怎样添加新的线索

图2 集搜客工作原理

若有疑问可以集搜客网络爬虫
44

鲜花
4

握手
1

雷人
1

路过
1

鸡蛋

刚表态过的朋友 (51 人)

相关阅读

最新评论

GMT+8, 2024-11-21 16:59