由于某些原因(对方服务器中断或是其他),DataScraper可以在下次继续提取上次未采集的索引数据吗?
如果抓取单个网页不成功,线索的状态变成fetched或者其它不成功状态,使用DataScraper的弹出菜单“线索”-〉“激活”就可以再次激活它。
如果连续翻页抓取,可以设置周期性网页抓取调度文件的resumePageLoad和resumeMaxCount参数,能够应付一些断点续采。但是,如果用AJAX实现的翻页,就应付不了了,因为每个翻页都没有自己的URL,重加载不了。
如果是普通的翻页(不是AJAX的),如果中断了,还可以用一种人工的方法续采,将断的那个网页作为样本页面再生成一个线索。这样一个线索从第1页开始,另一个从中间某页开始。很多网站分了很多页,例如手机游戏网站经常分上千页,一般会中断,可以采用这种方法。
DataScraper在抓取的时候,如果遇到对方服务器中断或是Down机,DataScraper这个时候是停止抓取吗?当我下次看的时候,在线索统计里面,Start是表示未提取的数量吗?fetched是表示什么意思,其他代表什么?当中断发生后,下次我继续点击提取,输入提取数量,是表示提取上次未抓取过的线索吗?
DataScraper只提取start状态的线索,输入的提取数量就是指start状态的线索数量 如果目标网站中断,线索状态很有可能是fetched,可以通过“激活”将状态恢复成start。
在抓取页面的时候,有时候会遇到这样的问题,比方说正在抓取的页面提示:当前数据不存在,这时候DataScraper会自动执行下一个索引的提取吗?还是一直在那循环提取?可以手动改变让它继续提取下一个索引线索吗?
假设提取时输入的线索数是100,执行到50个的时候,这个网页连不上了,或者网页被删除了,DataScraper可能会发现信息结构不符合这个网页结构;也可能一直等到超时(例如,启用了延长模式)。无论什么情况DataScraper放弃第50个线索后会自动往下提取
连续翻页抓取时需要断点续采
如果抓取单个网页不成功,线索的状态变成fetched或者其它不成功状态,使用DataScraper的弹出菜单“线索”-〉“激活”就可以再次激活它。
如果连续翻页抓取,可以设置周期性网页抓取调度文件的resumePageLoad和resumeMaxCount参数,能够应付一些断点续采。但是,如果用AJAX实现的翻页,就应付不了了,因为每个翻页都没有自己的URL,重加载不了。
如果是普通的翻页(不是AJAX的),如果中断了,还可以用一种人工的方法续采,将断的那个网页作为样本页面再生成一个线索。这样一个线索从第1页开始,另一个从中间某页开始。很多网站分了很多页,例如手机游戏网站经常分上千页,一般会中断,可以采用这种方法。
有关线索统计
DataScraper在抓取的时候,如果遇到对方服务器中断或是Down机,DataScraper这个时候是停止抓取吗?当我下次看的时候,在线索统计里面,Start是表示未提取的数量吗?fetched是表示什么意思,其他代表什么?当中断发生后,下次我继续点击提取,输入提取数量,是表示提取上次未抓取过的线索吗?
信息提取线索的状态
DataScraper只提取start状态的线索,输入的提取数量就是指start状态的线索数量
如果目标网站中断,线索状态很有可能是fetched,可以通过“激活”将状态恢复成start。
如何手动执行下一个索引
在抓取页面的时候,有时候会遇到这样的问题,比方说正在抓取的页面提示:当前数据不存在,这时候DataScraper会自动执行下一个索引的提取吗?还是一直在那循环提取?可以手动改变让它继续提取下一个索引线索吗?
DataScraper会自动提取下一个线索
假设提取时输入的线索数是100,执行到50个的时候,这个网页连不上了,或者网页被删除了,DataScraper可能会发现信息结构不符合这个网页结构;也可能一直等到超时(例如,启用了延长模式)。无论什么情况DataScraper放弃第50个线索后会自动往下提取