网站是利用js参数做的翻页,每一页的url都是不变的。网络问题只爬一部分页就停止了,想从停的页开始爬下一次,这个如何设置呢?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-12 10:37

沙发
Fuller 管理员 发表于 2017-3-11 09:43:24 | 只看该作者
这种类型的翻页,如果中间断了,就很难接上了,要从头开始爬
举报 使用道具
板凳
jyy1082 初级会员 发表于 2017-3-11 13:39:05 | 只看该作者
Fuller 发表于 2017-3-11 09:43
这种类型的翻页,如果中间断了,就很难接上了,要从头开始爬

一共600多页,访问到100多页的时候,网页只加载上半部分,下面的翻页没有加载出来,所以认为是最后一页停止了。

举报 使用道具
地板
Fuller 管理员 发表于 2017-3-11 15:02:15 | 只看该作者
jyy1082 发表于 2017-3-11 13:39
一共600多页,访问到100多页的时候,网页只加载上半部分,下面的翻页没有加载出来,所以认为是最后一页停 ...

DS打数机的滚屏功能打开没有?
举报 使用道具
5#
jyy1082 初级会员 发表于 2017-3-12 04:43:16 | 只看该作者
Fuller 发表于 2017-3-11 15:02
DS打数机的滚屏功能打开没有?

滚屏功能打开的,感觉是请求回来的数据不完整,所以只是显示部分数据了。
举报 使用道具
6#
Fuller 管理员 发表于 2017-3-12 10:37:41 | 只看该作者
jyy1082 发表于 2017-3-12 04:43
滚屏功能打开的,感觉是请求回来的数据不完整,所以只是显示部分数据了。
...

请求回来的数据不完整,这种情况会发生的,比如,采集微博,微博网站网速不稳定,尤其采集评论信息的时候,经常只显示一半,连翻页区都没有,就会中断了。这种情况目前无法解决,因为即使想刷新页面而重新加载也不行,每个分页没有独立的网址,很多时候一刷新又从第一页开始了。

这种情况只能想办法增加网络带宽,尽量让网速稳定
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 03:37