DataScraper可以断点采集吗?

由于某些原因(对方服务器中断或是其他),DataScraper可以在下次继续提取上次未采集的索引数据吗?

连续翻页抓取时需要断点续采

如果抓取单个网页不成功,线索的状态变成fetched或者其它不成功状态,使用DataScraper的弹出菜单“线索”-〉“激活”就可以再次激活它。

如果连续翻页抓取,可以设置周期性网页抓取调度文件的resumePageLoad和resumeMaxCount参数,能够应付一些断点续采。但是,如果用AJAX实现的翻页,就应付不了了,因为每个翻页都没有自己的URL,重加载不了。

如果是普通的翻页(不是AJAX的),如果中断了,还可以用一种人工的方法续采,将断的那个网页作为样本页面再生成一个线索。这样一个线索从第1页开始,另一个从中间某页开始。很多网站分了很多页,例如手机游戏网站经常分上千页,一般会中断,可以采用这种方法。

有关线索统计

DataScraper在抓取的时候,如果遇到对方服务器中断或是Down机,DataScraper这个时候是停止抓取吗?当我下次看的时候,在线索统计里面,Start是表示未提取的数量吗?fetched是表示什么意思,其他代表什么?当中断发生后,下次我继续点击提取,输入提取数量,是表示提取上次未抓取过的线索吗?

信息提取线索的状态

  • start:表示该线索还没有提取过
  • fetched:表示该线索已经被某个DataScraper从MetaSeeker服务器上取下来了,正在做网页信息提取
  • unknownschema:表示该线索的信息结构不符合实际网页的结构
  • 还有其它状态

DataScraper只提取start状态的线索,输入的提取数量就是指start状态的线索数量
如果目标网站中断,线索状态很有可能是fetched,可以通过“激活”将状态恢复成start。

如何手动执行下一个索引

在抓取页面的时候,有时候会遇到这样的问题,比方说正在抓取的页面提示:当前数据不存在,这时候DataScraper会自动执行下一个索引的提取吗?还是一直在那循环提取?可以手动改变让它继续提取下一个索引线索吗?

DataScraper会自动提取下一个线索

假设提取时输入的线索数是100,执行到50个的时候,这个网页连不上了,或者网页被删除了,DataScraper可能会发现信息结构不符合这个网页结构;也可能一直等到超时(例如,启用了延长模式)。无论什么情况DataScraper放弃第50个线索后会自动往下提取