|
本帖最后由 wangyong 于 2015-9-19 20:12 编辑
针对不同结构的网页,可以在第二级主题名下编写多个主题名相同,规则编号不同的抓取规则。比如已经做好的第二级规则主题名是,集搜客第二级,规则编号是:规则_1,但是还有和当前规则样本页不同的结构的第二级网页,这时再编写一个主题名为集搜客第二级,规则编号为规则_2的抓取规则就可以有效抓取两种结构的网页。
参看教程:http://www.gooseeker.com/cn/node ... v4/multischema.html
要注意的是:
做主题名相同规则编号不同的规则时,比较两种网页结构的不同,挑选两种网页独有的内容作为抓取内容并勾上关键内容,爬虫会由此来判断第一级抓取下来的线索是分配给第二级规则的规则_1还是规则_2。
|
|
共 1 个关于本帖的回复 最后回复于 2015-9-16 16:35