最近爬虫出了问题,可能是网页进行了防爬虫设置。
规则是:cnvd漏洞列表,cnvd漏洞详细信息
具体表现是,添加线索进行爬取,爬取约10个页面后,就会持续失败。已经设置了减慢爬取速度,设置了滚屏时间等,还有清除了cookies,都无效。
添加的线索网址是:
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=0
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=20
http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=40
......
cnvd漏洞列表规则爬取完网址后在启用cnvd漏洞详细信息规则进行爬取。

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-1-17 22:10

沙发
Fuller 管理员 发表于 2017-1-17 21:02:37 | 只看该作者
我测试了,确实是这样,即使用手工点击,不管用什么浏览器,都会出现这个现象,可能是对访问次数作了限制
举报 使用道具
板凳
Fuller 管理员 发表于 2017-1-17 21:04:10 | 只看该作者
似乎是一分钟可以点击10次
举报 使用道具
地板
fasdfs 新手上路 发表于 2017-1-17 21:30:23 | 只看该作者
Fuller 发表于 2017-1-17 21:02
我测试了,确实是这样,即使用手工点击,不管用什么浏览器,都会出现这个现象,可能是对访问次数作了限制 ...

请问有什么解决办法吗
举报 使用道具
5#
Fuller 管理员 发表于 2017-1-17 22:10:46 | 只看该作者
fasdfs 发表于 2017-1-17 21:30
请问有什么解决办法吗

用爬虫群模式,设置调度参数的时候,“一轮停歇时间”设置成60秒,高级设置里面的“一轮线索数量”设置成9,就是一批只抓9个网页。这样应该可以,你可以试试。爬虫群设置方法参考高级教程《如何运行爬虫群
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 03:46