最近爬虫出了问题,可能是网页进行了防爬虫设置。
规则是:cnvd漏洞列表,cnvd漏洞详细信息
具体表现是,添加线索进行爬取,爬取约10个页面后,就会持续失败。已经设置了减慢爬取速度,设置了滚屏时间等,还有清除了cookies,都无效。
添加的线索网址是: http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=0 http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=20 http://www.cnvd.org.cn/flaw/list.htm?number=&startDate=2016-12-1&endDate=2016-12-31&max=20&offset=40 ...... cnvd漏洞列表规则爬取完网址后在启用cnvd漏洞详细信息规则进行爬取。
|
共 4 个关于本帖的回复 最后回复于 2017-1-17 22:10