本帖最后由 ym 于 2017-8-12 11:58 编辑
常见问题 > 采集数据—常见问题导航 > 采集过程的常见问题 > 抓取网页信息太快导致封锁IP的情况,如何处理
采集一个网站太频繁,能够采集的网页越来越少,甚至会被封杀IP,只有控制好采集速度和频率才能持续地获得数据,并且,要定期清理浏览器的cookies。
1、每天清理完cookies后请重启浏览器和爬虫,GS爬虫浏览器清cookie的方法请看帖子《GS浏览器可以清除cookies吗》。
如果是用火狐浏览器,清理cookies操作如图:
2、控制采集速度的方法如下:
(1)爬虫群采集的话,请进入会员中心->规则管理,点击“调度”,可以设置如下调度参数。每个调度参数的意义见http://www.gooseeker.com/doc/article-112-1.html- 把调度中的一轮停歇时间设为大于0,
- 线索间等待最短时间和线索间等待最长时间设大点,但线索间等待最短时间要小于线索间最长时间,
- 延迟抓取时间可以调大点,
- 滚屏次数设为一个较大的正整数,
- 定时器触发默认为否
(2)手工采集的话,通过DS打数机的配置菜单->滚屏参数来控制抓取速度,滚屏次数设为一个较大的正整数,滚屏速度设为负整数,采集速度就会放慢,不要勾定时器触发,不要禁止图片加载、不要禁止JS加载。另外,对于长网页和ajax网页,要把超时时长调整为大于60秒,把延迟抓取设置一个时间值,以便放慢采集速度。
(3)自己编写爬虫调度程序的话,类似方法1修改crontab中控制速度的参数就可以了
3、更换ip地址
已经被限制访问的情况下,建议换个ip,如果是adsl宽带拨号上网的方式,重新拨号就行,如果是光纤上网,就重启路由器,操作如下:
方法a. 将路由器的电源关掉然后重新打开,也就是重启一下路由器后的外网ip地址就换了。
方法b. 需要登陆路由器的web管理界面(当然前提是有帐号密码,一般默认是admin),然后断开当前外网的连接,再重新连接上网络后,外网ip即可成功更换。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 2 个关于本帖的回复 最后回复于 2016-12-11 11:57