一、集搜客组成结构 目前集搜客爬虫软件分为两个版本,免费的社区版和独立的企业版。下面主要介绍集搜客网络爬虫的工作原理,集搜客是由服务器和客户端两部分组成,服务器是用来存储规则和线索(待抓网址),MS谋数台是用来制作网页抓取规则的,DS打数机则是用来采集网页数据的。 图1 集搜客的组成结构 二、集搜客的工作原理 1、用MS谋数台制作好规则后,规则会保存在集搜客的服务器中,同时会把样本网址作为一条线索(待抓网址)也保存在服务器中。PS:规则虽然保存在服务器中,但是随时都可以查看修改。 2、DS打数机采集数据,就是调用做好的规则采集待抓网址的网页数据的过程,详情可参考文章DS打数机如何采集数据。 3、采集成功的话就会在本地文件夹DataScraperWorks中生成结果文件。 4、如果是层级规则,除了生成结果文件,抓到的网址作为下一级规则的待抓网址,会被存在服务器中,采集数据时就会按顺序执行。规则的待抓网址也可以人工添加,详情参考文章怎样添加新的线索。 图2 集搜客工作原理 |