如果遇到需要输入验证码的网站是不是就不能爬数据了
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-11-2 11:13

沙发
xandy 论坛元老 发表于 2016-11-2 11:10:32 | 只看该作者
不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有效地采到更多数据。
具体操作可以参看:《连续打码:破解各种验证码连续采数据——以工商信息网为例
举报 使用道具
板凳
Fuller 管理员 发表于 2016-11-2 11:13:06 | 只看该作者
一方面,在会员中心设置调度参数:线索间等待最短时间 和 线索间等待最长时间,把他们设置长一点,同时,前者要小于后者,这样每抓一页就随机等待一会。放慢速度可以防止出现验证码。

如果还是出现了,就要连打码平台,这个功能需要购买旗舰版

最近阿里巴巴企业信息抓取过程中,即使有连续打码,时间久了连验证码也不显示了。这样只有放慢速度,部署更多爬虫,分开爬。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-23 05:47