使用微博关键词进行爬虫群爬取,最大爬虫数为1,线索间等待超过5秒,一轮停歇时间超过15秒,仍然时常需要输入验证码。请问依据经验,做微博内容爬取时,什么样的设置能够避免输入验证码?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-6-1 15:34

沙发
Fuller 管理员 发表于 2017-5-31 23:30:18 | 只看该作者
关键词搜索翻页抓取的时候,超过30多页,具体页码我记不得了,就会出验证码。

好在微博搜索有按照时间段搜索的功能,可以细到一小时,尽量不要超过30个分页。有些微博实在是太热,即使1小时也会超过30页,只能看着,出现验证码的时候手工打码
举报 使用道具
板凳
whuhzx 中级会员 发表于 2017-6-1 15:09:48 | 只看该作者
好的,谢谢。但是我之前已经分时段爬取了,每次大概就六七页,还是需要输入验证码...
举报 使用道具
地板
Fuller 管理员 发表于 2017-6-1 15:34:43 | 只看该作者
whuhzx 发表于 2017-6-1 15:09
好的,谢谢。但是我之前已经分时段爬取了,每次大概就六七页,还是需要输入验证码... ...

如果这么频繁要求打码,那么就是你的ip和微博账号已经被列入到监控名单了。这样做:
1,清理cookie,清理cookie的方法可以在教程首页搜索 清理cookie
2,最好换一下IP,比如,重拨ADSL猫
3,重启爬虫程序
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 02:55