在采集文博的评论的过程中,还没有采完,就出现打数机停止采集的情况

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-20 21:25

何波波 金牌会员 发表于 2016-7-20 16:52:02 | 显示全部楼层
微博会限制采集评论或者转发,翻页到中间就不能继续的访问了。另外,微博账号也是有等级的,不同的等级触发反爬虫的几率不同,爬微博数据要定期的更换微博账号,并且清理浏览器cookies。http://www.gooseeker.com/doc/thread-1872-1-1.html
举报 使用道具
Fuller 管理员 发表于 2016-7-20 21:25:20 | 显示全部楼层
1,为了反爬,爬微博最好用爬虫群模式,在爬虫罗盘中设定这个任务的调度参数,每爬一页,增加一个随机的停顿。
2,如果使用我们的微博采集工具箱(http://www.gooseeker.com/land/weibo.html ),这个工具箱都把参数调试好了,只需关注第三点
3,控制每天每个微博账号采集的数量:控制在2000次点击以内。然后就换微博账号,注意使用以下步骤确保账号换得清爽:
a,在微博上登出
b,用火狐浏览器的功能清除cookie
c,重启火狐和GooSeeker爬虫
d,访问微博并登录
e,开始新的采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 07:25