如果遇到需要输入验证码的网站是不是就不能爬数据了
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-2 11:13

xandy 论坛元老 发表于 2016-11-2 11:10:32 | 显示全部楼层
不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有效地采到更多数据。
具体操作可以参看:《连续打码:破解各种验证码连续采数据——以工商信息网为例
举报 使用道具
Fuller 管理员 发表于 2016-11-2 11:13:06 | 显示全部楼层
一方面,在会员中心设置调度参数:线索间等待最短时间 和 线索间等待最长时间,把他们设置长一点,同时,前者要小于后者,这样每抓一页就随机等待一会。放慢速度可以防止出现验证码。

如果还是出现了,就要连打码平台,这个功能需要购买旗舰版

最近阿里巴巴企业信息抓取过程中,即使有连续打码,时间久了连验证码也不显示了。这样只有放慢速度,部署更多爬虫,分开爬。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 04:55