DataScraper可以断点采集吗？

Fri, 07/16/2010 - 11:02 — redplus

由于某些原因（对方服务器中断或是其他），DataScraper可以在下次继续提取上次未采集的索引数据吗？

MetaSeeker工具包

Fri, 07/16/2010 - 11:31 — Fuller

连续翻页抓取时需要断点续采

如果抓取单个网页不成功，线索的状态变成fetched或者其它不成功状态，使用DataScraper的弹出菜单“线索”-〉“激活”就可以再次激活它。

如果连续翻页抓取，可以设置周期性网页抓取调度文件的resumePageLoad和resumeMaxCount参数，能够应付一些断点续采。但是，如果用AJAX实现的翻页，就应付不了了，因为每个翻页都没有自己的URL，重加载不了。

如果是普通的翻页（不是AJAX的），如果中断了，还可以用一种人工的方法续采，将断的那个网页作为样本页面再生成一个线索。这样一个线索从第1页开始，另一个从中间某页开始。很多网站分了很多页，例如手机游戏网站经常分上千页，一般会中断，可以采用这种方法。

Fri, 07/16/2010 - 11:43 — redplus

有关线索统计

DataScraper在抓取的时候，如果遇到对方服务器中断或是Down机，DataScraper这个时候是停止抓取吗？当我下次看的时候，在线索统计里面，Start是表示未提取的数量吗？fetched是表示什么意思，其他代表什么？当中断发生后，下次我继续点击提取，输入提取数量，是表示提取上次未抓取过的线索吗？

Fri, 07/16/2010 - 11:56 — Fuller