GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
请
登录
后使用快捷导航
没有帐号?
立即注册
登录
|
注册
快捷导航
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
13524
怎样放慢采集数据的速度
gooseeker_info
于 2016-11-20 15:26
发表
[复制链接]
[只看楼主]
[打印]
[上一主题]
[下一主题]
gooseeker_info
积分
1743
精华
1
威望
562
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
采集速度在哪儿可以修改呀,我担心有反爬
收藏
0
转播
支持
0
反对
0
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2016-12-11 11:56
Fuller
积分
23466
精华
0
威望
6450
金钱
6
最后登录 2024-11-24
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
沙发
Fuller
管理员
发表于 2016-11-20 15:45:56
|
只看该作者
大型的网站会有一些反爬措施,到底反爬有多严,需要实验才能知道。
如果你的网络爬虫软件安装在云服务器上,
千万不要试探
,一旦被封IP,很久都不会解开,你的IP就费了。实验要在动态IP的环境中做,比如,ADSL接入和光纤接入。
先把爬虫速度调高,而且并
行运行好几个爬虫线程
,遇到反爬,就往下调速度。
一旦你的IP被封锁了,需要重新拨号换IP,而且
清洗cookie
,同时放慢采集速度,参看这个集锦《
设置网络爬虫的采集数据速度
》
举报
使用道具
回复
支持
反对
Fuller
积分
23466
精华
0
威望
6450
金钱
6
最后登录 2024-11-24
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
板凳
Fuller
管理员
发表于 2016-12-11 11:56:45
|
只看该作者
放慢采集速度的方法总结,请参看《
采集速度太快了,我想调慢点
》的“地板”楼层。摘录如下:
影响采集速度的参数有:
1,线索间等待最短时间 和 线索间等待最长时间 的组合,如 @Fuller 所说
2,最大允许运行爬虫数量:这是运行这个主题的爬虫数量,也就是并行运行的数量,1个最慢
3,延迟抓取时间、一轮线索数量,这个两个组合在一起,让一轮线索数量变小,延迟抓取时间变长,那么每轮调度的周期变长了,每一轮抓的也少了,就会大大变慢
4,超时等待时间:只对失败线索有效,如果这个时间很长,失败前等待时间就长,但是,对于成功抓取的,不会达到这个时间的
5,滚屏次数、滚屏速度,这个两个组合在一起,滚屏速度设置成负数,滚屏次数提高,那么滚得很慢,都是要额外滚很多屏,也会大大变慢
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖并转播
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
利用AI阅读和分析文本:扣子COZE记录用户反
在网页片段内直观标注——以B站评论采集为
利用AI阅读和分析文本:使用COZE建设游记文
使用AI工具Kimi生成python代码为文本分析结
苹果mac电脑安装集搜客网络爬虫软件失败的
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
集搜客文本分词标注工具(V1版)
3
怎样使用快捷采集(以采集京东评论为例)
4
有没有办法采集机场的出租车信息?
5
获得积分的好方法:转发小程序、QQ群、微信
6
【求助】关于采集阿里巴巴国际站访客详情分
7
GooSeeker分词,情感分析和关键词抽取平台使
8
新浪微博_博主主页
9
怎样采集抖音关键词搜索后的数据
10
集搜客GooSeeker 网络爬虫版本发布公告
热门用户
Fuller
帖子:10560
访问主页>>
wangyong
帖子:1712
访问主页>>
gbkuce
帖子:0
访问主页>>
GMT+8, 2024-11-25 01:01
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2016-12-11 11:56