规则怎么查看、修改、另存、删除

2015-10-13 10:38| 发布者: ym| 查看: 41313| 评论: 5

摘要: 如何查看做好的规则 做好的规则保存后就被存到服务器中,而不是保存在本地,查看方法如下: 1.到MS谋数台的“搜规则”工作台中,输入主题名搜索,如果忘记主题名,可以输入*就能看到自己所做的规则,或者右击空白处 ...

配套软件版本:V9及更低 集搜客网络爬虫

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《爬虫任务的加载、修改和另存


做好的规则保存后,是存到Gooseeker服务器中,而不是保存在本地,想要修改规则或者做其他管理操作,可以根据下面操作把规则重新加载出来,具体如下:

1、搜索规则:打开集搜客爬虫浏览器,在浏览器的右上角点击“定义规则”,切换到定义规则模式,工作台会弹出来。把工作台切换到“搜规则”窗口,在搜索框里输入主题名然后点击搜索,如果忘记主题名,可以输入 *  就能看到自己的全部规则,或者在底部空白处右击,就会弹出快捷菜单,选择“浏览”也可以看到全部规则,如图1。

图1 搜索规则

2、加载规则:找到主题后,鼠标右击选中规则,弹出快捷菜单,选择“加载”,就会看到浏览器窗口上在加载网页,等网页加载完成就会弹出提示框,根据提示,点击左上角“文件”菜单->“后续分析”,完成整个规则的重现,如图2。

图2 加载规则

如果点击后续分析,弹出提示框说无法定位到之前映射过的网页节点,这种情况可以参考教程《加载规则遇到错误》解决。如果不是前面定位不到节点的问题,说明网页结构改变了,规则不适用,这个问题请参考教程《怎样解决规则采集失败/遗漏的问题》来解决。

如果加载规则太慢,应该是网页上有很多Javascript代码要执行,比如,淘宝、天猫、微博等社交网站,这类网页会加载很久。用Firefox加载网页的话,会看到地址输入栏那里有个旋转的图标。用MS谋数台加载这样的网页,在网页浏览窗口上就会出现一个旋转图标。如果历时太长,可以强行关闭加载中窗口,用后续分析完成抓取规则的分析。详细过程参看《加载规则历时过长的解决方法》。

3、修改规则根据自己需要修改规则,和做规则的过程是一样的,最后要保存

4、另存规则如果修改规则后不想覆盖原规则,可以将主题名另起一个,再保存。要注意对主题名查重,如果是设置过爬虫路线或者是连续动作,那么爬虫路线/连续动作里目标主题名也要做相应的修改,完成后就相当于对规则做另存为操作,新规则不会覆盖旧规则。

5、删除规则:在工作台的搜规则窗口里,右击规则名,弹出快捷菜单,选择删除,注意:一经删除,将无法找回规则,请慎重操作。


若有疑问可以集搜客网络爬虫
20

鲜花
2

握手

雷人

路过
3

鸡蛋

刚表态过的朋友 (25 人)

相关阅读

发表评论

最新评论

评论 lc3294 2017-3-4 14:17
第一次使用,觉得定义的术语太难理解了,比如“爬虫路线”“连续动作”。。。能不能来基本的点术语解释呀
ps :我想将已经定义的规则再次搜索更新的数据,百思不得姐
评论 blg870312786 2016-10-26 00:15
小技巧get
评论 gooseeker_info 2015-11-21 11:55
Ketchup: 我只有信息和浏览,没有加载和删除,我哪里弄错了?
有两个工作台:搜规则 和 搜主题 ,你肯定是在 搜主题 上操作的
评论 Ketchup 2015-11-21 10:35
我只有信息和浏览,没有加载和删除,我哪里弄错了?
评论 驻在冰箱的企鹅菌 2015-10-14 09:53
小技巧get~

查看全部评论(5)

GMT+8, 2024-10-31 12:53