快捷导航

主题、规则、整理箱、线索四者的关系

2016-7-15 13:00| 发布者: ym| 查看: 3560| 评论: 0

摘要: 主题是采集某类网页的多个规则的工作组,当某类网页有多种网页结构时,例如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,以覆盖多种网页结构,这样只要运行一个主题,就能覆盖采 ...

爬虫不能只是抓取数据,还要对抓来的数据进行管理,所以我们会有一套运行逻辑,来实现对爬虫、任务、数据的业务管理,这套运行逻辑的几个关键节点,按照范围从大到小排列分别是:主题>规则>整理箱>线索;四者的关系如下图,对照电脑上的文件管理模式,主题就等同于文件夹,规则就是Excel文件,整理箱就是一个Excel表,线索就是表里的行,下面再讲讲它们各自的定义范围和作用

主题是用来抓取某一类网页的多个规则的集合,当某一类网页有多种网页结构时,比如淘宝的商品详情页面就有多种网页结构,这时,我们可以在同一个主题下建立多个规则,一个规则对应抓取一种网页结构,目的是为了覆盖到全部的网页结构,这样爬虫只要执行这个主题,就可以抓取到全部网页,可参考《怎么在同一个主题下建立多个规则》。

规则是从属于某一个主题,同一个主题下的规则是用不同规则编号来区分,它是对某种网页结构做映射而得到的爬虫程序,也就是说一种网页结构做一个规则就够了; 如果主题下建立了多个规则,特别要注意,每个规则的整理箱里必须要采集一个特有的信息标志,用来让爬虫在抓取网页时,能根据这个标志判断出要使用哪个规则,具体可参考《采集同一网站的不同网页结构信息

整理箱是从属于规则的,对网页信息做标注映射就可以得到一个树状目录结构的整理箱,说明整理箱是对应网页模块结构的。一个规则下面可以建立多个整理箱,各个整理箱可以对应网页上的不同模块,运行采集时就会同时执行多个整理箱的采集。例如,要抓取淘宝的商品详情页面,可以建立三个整理箱,第一个整理箱用来采集商品名、价格信息,第二个整理箱用来采集宝贝详情的图片,第三个整理箱用来采集店铺介绍,因为这三种信息是网页上的不同模块,如果全都放在一个整理箱抓取,就会抓取错位或遗漏,所以不同模块的信息最好是建立各自的整理箱来抓取。另一种需要建立多个整理箱的情况是,对于内嵌了iframe的网页,每一个iframe结构都要单独建立一个整理箱来采集,不能放到一个整理箱抓取。

线索就是我们常说的网址,网页结构相同的网址可以套用一个规则来采数据,可以手工把这些网址添加到规则中,再运行主题,就会逐条网址采集,这样就能批量采集一类网页信息,详情参考《如何管理规则的线索》;除了手工添加线索,我们还有层级采集的方法可以把网址自动导入到规则里,从而实现批量采集,详情参考《采网址做层级采集》。


若有疑问可以集搜客网络爬虫

鲜花

握手

雷人
3

路过

鸡蛋

刚表态过的朋友 (3 人)

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-9-19 22:27