翻页抓取时,出现Timeout to loud the page,是不是就是已经到了最后一页,数据抓取完了
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-11-19 19:26

沙发
Fuller 管理员 发表于 2015-11-19 17:41:33 | 只看该作者
如果到最后一页,通常就没有“下一页”标志了,DS打数机是不提示任何消息就结束了。

如果有上述提示,说明到某一页的时候,网页结构与抓取规则不相符,出错了。很可能是网络突然拥塞了,网页没有显示出来。目前超时时间是多少?

可以激活失败线索,再抓一遍试试,如果页数不多,可以盯着看看是什么原因。如果页数很多,可以先数数抓到了多少网页,就知道翻页到第几页了。可以用浏览器翻到那里看看是不是最后一页
举报 使用道具
板凳
ystian 新手上路 发表于 2015-11-19 19:15:12 | 只看该作者
40秒,少不,都已经到1465页了
举报 使用道具
地板
ystian 新手上路 发表于 2015-11-19 19:15:41 | 只看该作者
Fuller 发表于 2015-11-19 17:41
如果到最后一页,通常就没有“下一页”标志了,DS打数机是不提示任何消息就结束了。

如果有上述提示,说明 ...

40秒,少不,都已经到1465页了
举报 使用道具
5#
Fuller 管理员 发表于 2015-11-19 19:25:09 | 只看该作者
ystian 发表于 2015-11-19 19:15
40秒,少不,都已经到1465页了

如果翻页要很多,超时设置得长一些。可以1分钟,2分钟。不要以为DS打数机是根据这个时间去抓取的,DS打数机有自己的判断依据,只要在日志窗口不出现日志,比如“xxx还需要优化”,那么抓取就会很快,不会到超时才去抓。所以,可以设置成好几分钟。以防某个网页的时候网络突然变慢
举报 使用道具
6#
ystian 新手上路 发表于 2015-11-19 19:26:34 | 只看该作者
Fuller 发表于 2015-11-19 19:25
如果翻页要很多,超时设置得长一些。可以1分钟,2分钟。不要以为DS打数机是根据这个时间去抓取的,DS打数 ...

哦,thank u
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:28