求教一个爬虫无故无规律“任务结束”的问题

【症状】:

1、我自己新建的一个规则,主题:air2017

2、网页一共4000多页,测试无误,可是每次都是爬完几十页就会任务结束,每次结束的页数都不同,少则三四十,多则一两百页,毫无规律


3、手动翻页是没问题的,每一页的“下一页”标记也没有丢失


爬的是环保部的空气质量日报
http://datacenter.mep.gov.cn/report/air_daily/air_dairy.jsp?city=&startdate=2016-01-01&enddate=2016-12-31&page=1


求破解方法…………谢谢大神

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-1-9 17:39

沙发
Fuller 管理员 发表于 2017-1-9 17:35:51 | 只看该作者
我感觉规则做的不错,稍微有点可改进的地方就是翻页线索的定位映射选的范围太大了,但是对这个网页来说应该不影响适应性。

关键问题是这个网页显示太慢,DS打数机要做如下设置:
1,菜单 配置-》延迟抓取,要设置长一些。比如,10秒,不过会影响总体抓取速度
2,要打开滚屏,菜单 配置-》滚屏参数,把滚屏次数设置成2到5之间某个数字,这样进一步放慢速度

第一点十分重要
举报 使用道具
板凳
iamwanming 新手上路 发表于 2017-1-9 17:39:58 | 只看该作者
Fuller 发表于 2017-1-9 17:35
我感觉规则做的不错,稍微有点可改进的地方就是翻页线索的定位映射选的范围太大了,但是对这个网页来说应该 ...

感谢大神,我找你说的试试
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 13:17