第一个问题:
我在MetaSeeker中定义了一个抓取主题进行分页抓取,第一次进入DataScraper的时候,右键->线索->统计能够看到线索状态start 1,另外的项都为0;
但是点击提取运行完一次抓取之后,再次右键->线索->统计可以看到线索状态变为其他 1,另外的项都为0;
这个时候如果我再次点击提取,DataScraper就没有任何反应了,右键->线索->激活,也改变不了线索的状态;
我应该如何操作,才能将这个抓取再次运行一遍呢?
如果我的抓取过程是分为2层来进行的,如果我在中间某个进度(可能是第一层,也可能是第二层)停止了整个过程,那么应该如何重置这个2层的抓取,将所有该抓的信息重新抓取一遍呢?
第二个问题:
MetaSeeker和DataScraper是否能够在命令行模式下周期性运行,也就是说,我是否能将DataScraper部署到远程linux服务器上周期性运行?而该远程服务器只能通过ssh的方式来访问(比如在服务器提供商购买的虚拟主机);
第三个问题:
专业版的价格没有写在网站上,专业版的license需要多少钱?
最后,非常感谢你免费分享如此强大的工具!
重复网页提取需要用周期性方法
第一个问题:一个线索成功提取完成后,不能再用界面上的激活功能进行激活,界面上的激活功能只是对非“其他”的线索有效。应该使用周期性提取指令文件crontab.xml的renewClue激活。如果是层级提取,通常只需要激活第一层,第二层是否重复提取,也就是说是否只做增量提取,由第一层的周期性提取指令决定的,updateClue=true就能进行重复提取,updateClue=false,而且设置dupRatio=某个小于100的值,就能增量提取。
第二个问题:在命令行模式下运行不了,如果要部署在远程机房中,需要使用独享的Window Server服务器,或者共享的安装了Windows Server的VPS,用远程桌面控制它们,运行Firefox和DataScraper
第三个问题:MetaSeeker企业版价格十分高,如果需要,可以通过email或者电话联系。