|
要为两个规则都设置“关键内容”,而且要靠关键内容把两种结构区分出来,爬虫按照“规则编号”的顺序依次尝试,如果遇到关键内容都能采集到的规则,就用那个规则。如果“关键内容”不能区分多个规则,只会用前面那个规则。
因为有这个限制,相同任务名下多个规则只是用来解决同一批网页结构有变化的情况,不能把网址本来就不在一起的网页规则放在同一个任务下。
比如,采集电商商品详情,遇到了下架商品,网页结构变了,但是这些网址你是区分不开的,就让爬虫来区分。
又如,一批网址是采集商品详情,另一批网址是采集评论,这就不应该放在同一个任务下
|
|