GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
11012
怎样清理火狐的cookies
东条鱼泱希
于 2016-5-31 11:04
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
东条鱼泱希
积分
50
精华
0
威望
20
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
最近采集太频繁了,采集被限制了,我想问问怎样清理火狐的cookies,防止目标网站检测到我这边访问频繁
收藏
2
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2016-11-29 11:30
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
ym
版主
发表于 2016-5-31 11:13:00
|
只看该作者
本帖最后由 ym 于 2016-6-2 12:08 编辑
采集一个网站太频繁,能够采集的网页越来越少,甚至会被封杀IP,只有控制好采集速度和频率才能持续有效地获得数据,并且,要定期清理浏览器的cookies。解决方法如下:
1、每天清理完cookies后请重启浏览器和爬虫
,清理cookies操作如图:
2、控制采集速度的方法如下:
(1)
爬虫群采集
的话,可以把调度中的一轮停歇时间设为大于0,线索间等待最短时间和线索间等待最长时间设大点,但线索间等待最短时间要小于线索间最长时间,延迟抓取时间可以调大点,滚屏次数设为一个较大的正整数,定时器触发默认为否,每个调度参数的意义见
http://www.gooseeker.com/doc/article-112-1.html
(2)手工采集的话,通过DS打数机的配置菜单->
滚屏参数
来控制抓取速度,滚屏次数设为一个较大的正整数,滚屏速度设为负整数,采集速度就会放慢,不要勾定时器触发,不要禁止图片加载、不要禁止JS加载
(3)自己编写
爬虫调度程序
的话,类似方法1修改crontab中控制速度的参数就可以了
3、更换ip地址
已经被限制访问的情况下,建议换个ip,如果是adsl宽带拨号上网的方式,重新拨号就行,如果是光纤上网,就重启路由器,操作如下:
方法a. 将路由器的电源关掉然后重新打开,也就是重启一下路由器后的外网ip地址就换了。
方法b. 需要登陆路由器的web管理界面(当然前提是有帐号密码,一般默认是admin),然后断开当前外网的连接,再重新连接上网络后的外网ip即可成功更换。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
举报
使用道具
回复
支持
反对
ym
积分
5311
精华
24
威望
1760
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
ym
版主
发表于 2016-11-29 11:30:34
|
只看该作者
GS爬虫浏览器清cookie的方法请看帖子《
GS浏览器可以清除cookies吗
》
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
利用AI阅读和分析文本:使用COZE建设游记文
使用AI工具Kimi生成python代码为文本分析结
苹果mac电脑安装集搜客网络爬虫软件失败的
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10559
访问主页>>
wangyong
帖子:1712
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2024-11-22 16:32
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2016-11-29 11:30