注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 当我们采集某类具有多种网页结构的网页时,就需要针对每种网页结构做一个采集规则,把多个规则建立在同一个主题下,采集数据时只需运行这个主题名,爬虫就会自动调用里面的规则去采集对应的网页结构。可参考采集同一网站的不同网页结构信息。 1)创建新规则:点击MS谋数台的文件菜单->新建,在工作台清空后就可以定义新的规则;或者是重启MS谋数台,再来重新定义新规则;在命名主题窗口中填相同的主题名,不同的规则编号。 2)在原有规则的基础上修改:把新网址粘贴到网址框中,加载网页完成后,再点击文件菜单->刷新网页结构->分析页面,此时可能会由于结构不同而报错,定义新规则都可以忽略这些,你要做的是修改规则编号,然后修改规则的映射。 最后保存规则,去搜规则窗口搜索主题名,就能看到同一个主题名有多个规则,修改规则也是根据不同规则编号,一个个加载上来修改。 |