在采集文博的评论的过程中,还没有采完,就出现打数机停止采集的情况

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-20 21:25

沙发
何波波 金牌会员 发表于 2016-7-20 16:52:02 | 只看该作者
微博会限制采集评论或者转发,翻页到中间就不能继续的访问了。另外,微博账号也是有等级的,不同的等级触发反爬虫的几率不同,爬微博数据要定期的更换微博账号,并且清理浏览器cookies。http://www.gooseeker.com/doc/thread-1872-1-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2016-7-20 21:25:20 | 只看该作者
1,为了反爬,爬微博最好用爬虫群模式,在爬虫罗盘中设定这个任务的调度参数,每爬一页,增加一个随机的停顿。
2,如果使用我们的微博采集工具箱(http://www.gooseeker.com/land/weibo.html ),这个工具箱都把参数调试好了,只需关注第三点
3,控制每天每个微博账号采集的数量:控制在2000次点击以内。然后就换微博账号,注意使用以下步骤确保账号换得清爽:
a,在微博上登出
b,用火狐浏览器的功能清除cookie
c,重启火狐和GooSeeker爬虫
d,访问微博并登录
e,开始新的采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 14:14