做好的规则保存后,是存到Gooseeker服务器中,而不是保存在本地,想要修改规则或者做其他管理操作,可以根据下面操作把规则重新加载出来,具体如下: 1、搜索规则:打开集搜客爬虫浏览器,在浏览器的右上角点击“定义规则”,切换到定义规则模式,工作台会弹出来。把工作台切换到“搜规则”窗口,在搜索框里输入主题名然后点击搜索,如果忘记主题名,可以输入 * 就能看到自己的全部规则,或者在底部空白处右击,就会弹出快捷菜单,选择“浏览”也可以看到全部规则,如图1。 图1 搜索规则 2、加载规则:找到主题后,鼠标右击选中规则,弹出快捷菜单,选择“加载”,就会看到浏览器窗口上在加载网页,等网页加载完成就会弹出提示框,根据提示,点击左上角“文件”菜单->“后续分析”,完成整个规则的重现,如图2。 图2 加载规则 如果点击后续分析,弹出提示框说无法定位到之前映射过的网页节点,这种情况可以参考教程《加载规则遇到错误》解决。如果不是前面定位不到节点的问题,说明网页结构改变了,规则不适用,这个问题请参考教程《怎样解决规则采集失败/遗漏的问题》来解决。 如果加载规则太慢,应该是网页上有很多Javascript代码要执行,比如,淘宝、天猫、微博等社交网站,这类网页会加载很久。用Firefox加载网页的话,会看到地址输入栏那里有个旋转的图标。用MS谋数台加载这样的网页,在网页浏览窗口上就会出现一个旋转图标。如果历时太长,可以强行关闭加载中窗口,用后续分析完成抓取规则的分析。详细过程参看《加载规则历时过长的解决方法》。 3、修改规则:根据自己需要修改规则,和做规则的过程是一样的,最后要保存。 4、另存规则:如果修改规则后不想覆盖原规则,可以将主题名另起一个,再保存。要注意对主题名查重,如果是设置过爬虫路线或者是连续动作,那么爬虫路线/连续动作里目标主题名也要做相应的修改,完成后就相当于对规则做另存为操作,新规则不会覆盖旧规则。 5、删除规则:在工作台的搜规则窗口里,右击规则名,弹出快捷菜单,选择删除,注意:一经删除,将无法找回规则,请慎重操作。 |