Hi Fuller, 请帮忙看看这个主题 abc_163_1,我想翻页抓取一则新闻后的评论信息,一共有4页,我已经设置好了AJAX抓取模式,但是在翻到第二页的时候,datascraper 就停止响应了。 我用的是最新的4.11.5版本,谢谢!
我只选了延长模式,而没选积极模式。网易和新浪的评论似乎有点区别,因为读取新浪评论的时候不选积极模式很正常,但是网易的评论就一定要选积极模式。看来我还是不太理解这个原理。
通常积极模式和延长模式同时选,但是有时候选了积极模式后,抓取到的结果可能会有重复,偶尔会出现一个网页抓取了两遍。此时,应该试着将积极模式去掉。
有积极模式,通常抓取速度快很多,因为DataScraper积极地去尝试网页内容是否加载成功了,假设评论列表很长,不是一次加载好,用积极模式有可能会抓取到列表的上半部分。
有些网页的内容持续修改,即使浏览者看到加载完了,网页实际上还在修改,此时,DataScraper无法判断是否加载完成了,就需要使用定时器触发模式,强制DataScraper做最后一次判断
解决了
我只选了延长模式,而没选积极模式。网易和新浪的评论似乎有点区别,因为读取新浪评论的时候不选积极模式很正常,但是网易的评论就一定要选积极模式。看来我还是不太理解这个原理。
新版本还增加了一个定时器触发模式
通常积极模式和延长模式同时选,但是有时候选了积极模式后,抓取到的结果可能会有重复,偶尔会出现一个网页抓取了两遍。此时,应该试着将积极模式去掉。
有积极模式,通常抓取速度快很多,因为DataScraper积极地去尝试网页内容是否加载成功了,假设评论列表很长,不是一次加载好,用积极模式有可能会抓取到列表的上半部分。
有些网页的内容持续修改,即使浏览者看到加载完了,网页实际上还在修改,此时,DataScraper无法判断是否加载完成了,就需要使用定时器触发模式,强制DataScraper做最后一次判断