我使用记号线索(下一页)翻页,网页仅区域内容刷新了,抓取卡在“第二页”就不动了。这个第二页其实还是第一页,只是局部内容刷新了。
这种情况是不是需要使用crontab.xml重新激活线索?
请问怎么设置?
感觉这跟周期性提取xml文件无关吧,不知道这种仅刷新DOM的翻页如何抓取呀? 发现第一页有xml文件,翻到了第二页,不生成xml文件,且状态是超时提示。 总线索数12 PLINE 剩余线索0 SUPA
抓取AJAX局部刷新的网页需要设置AJAX抓取选项:积极模式和延迟模式。通常设置这两种模式就能实现AJAX抓取,个别网站还需要为DataScraper设置定时器触发方式,定时器触发方式可能会造成漏抓,万不得已不使用。
是的,我今天测试了所有的方法,都卡起,才发了这个帖。 看了你的回复,回家换个电脑,然后只勾选了积极模式,居然成功了!难道是因为家里网络要畅通一些的原因?
发现第一页有xml文件
感觉这跟周期性提取xml文件无关吧,不知道这种仅刷新DOM的翻页如何抓取呀?
发现第一页有xml文件,翻到了第二页,不生成xml文件,且状态是超时提示。
总线索数12 PLINE
剩余线索0 SUPA
抓取AJAX局部刷新的网页
抓取AJAX局部刷新的网页需要设置AJAX抓取选项:积极模式和延迟模式。通常设置这两种模式就能实现AJAX抓取,个别网站还需要为DataScraper设置定时器触发方式,定时器触发方式可能会造成漏抓,万不得已不使用。
是的,我今天测试了
是的,我今天测试了所有的方法,都卡起,才发了这个帖。
看了你的回复,回家换个电脑,然后只勾选了积极模式,居然成功了!难道是因为家里网络要畅通一些的原因?