|
我又测试了一遍,我前面说的方法可行,你的理解有点偏差:新定义的主题的名字不能变,还应该叫 药品信息3,但是 规则编号 要改变,这样就会在同一个主题下有两个规则了,各自应对不同的网页结构。
我在一个主题下定义了两个规则,主题名相同,规则编号不同
他们完全一样,只是规则编号填的不一样
第一个规则定义过程正常,第二个规则定义过程是这样的:假设你刚刚定义完第一个规则,那么工作台中有规则,可以直接利用
1)工具条中间的“内容定位”不要勾
2)点击网页上的“下一页”,等待下一页内容显示出来
3)选择菜单 规则-〉刷新网页结构,然后再选择 分析页面,会看到报错了,因为第二页的结构不符合规则_1
4)来到 创建规则 工作台,重新做内容映射和样例复制映射
5)来到 爬虫路线 工作台,重新做线索定位映射和记号映射
6)来到 命名主题 工作台,修改规则编号 规则_2
7)点击 “存规则”,第二个规则就存好了
现在就可以采集了,DS打数机到第二页的时候,会发现结构变了,就会自动选择第二个规则。
注意,这个网站速度好慢,容易中断,最好到会员中心设置调度参数,用爬虫群模式,把速度调慢,参看《设置采集速度》的减速那篇
另外,还要注意,如果想加载第二个规则,等出现“后续分析”提示框的时候,不能立即选择后续分析菜单,而是要手工翻页到第二页才能执行后续分析,否则分析不成功
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|