网页内容抓取软件DataScraper无法再次提取同一个页面的原因是什么?

问:使用网页内容抓取软件DataScraper提取某个主题的网站内容,提取完一遍后,再次提取同一个主题的网页内容发现提取不了了,这是什么原因?


答:需要从两方面分析问题的原因:第一,检查是否还有未被提取的线索供提取;第二,是否遇到了V3.x及其以前版本的一个记录在案的bug。

首先检查是否由第一个原因引起的,在DataScraper的主题列表上使用右键鼠标弹出菜单“统计”,看看处于start状态的线索数是多少,如果是0,则不能再提取了,如果>0,则应该还可以提取,就需要检查是否是由第二个原因引起的。

V3.x及其以前版本有个bug,假设提取了页面A后,DataScraper没有重新启动(保持页面A还在DataScraper的浏览器窗口中),再次使用鼠标右键弹出菜单“提取”发起对同一个页面A的提取操作,DataScraper没有从网络上重新下载网页,而是使用缓冲区的网页,DataScraper的提取流程不能正确进行,这个问题在即将发布的V4.0.0版本中修改。如果使用以前版本,想再一次提取同一个页面,请重新启动DataScraper,或者先让DataScraper提取别的网页,然后再回来提取这个网页