爬数据时,有些网站会封ip,需要输入验证码。
比如做了一个规则正常抓取网页数据,网站发现你像机器人,提示输入验证码,但这个页面是不定时的,可能很短时间出现一次,可能很长时间出现一次。
我看过联系打码的教程,工商网站的,是点击搜索后,输入验证码,这个过程是必现的。这种不必现的如何解决?

我想是不是这样做:
做主题名一样,规则名不一样,一个是正常抓取数据,一个是负责打码?

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-3-6 17:21

沙发
quyixuan 金牌会员 发表于 2017-3-6 14:51:36 | 只看该作者
本帖最后由 quyixuan 于 2017-3-6 14:54 编辑

验证码出现的不频繁而且采集量不大的话,完全可以人工盯着,出现验证码就手工输入就行了,不然的话还是只能对接打码平台,至于被封ip弹验证码的情况,清理一下cookie,然后换个ip,放慢采集速度一般就可以继续采集的
举报 使用道具
板凳
fqzlala 中级会员 发表于 2017-3-6 15:00:30 | 只看该作者
quyixuan 发表于 2017-3-6 14:51
验证码出现的不频繁而且采集量不大的话,完全可以人工盯着,出现验证码就手工输入就行了,不然的话还是只能 ...

采集量比较大,少量是可以人工盯一下,大量的就不行了,出现验证码还不规律,只能付费用连续打码。我现在疑问是,这种检测到我机器人行为,访问正常网页跳转输入验证码的页面规则怎么做,是不是一个命名2个不同规则名处理,一个正常抓,一个自动打码?

举报 使用道具
地板
quyixuan 金牌会员 发表于 2017-3-6 15:10:32 | 只看该作者
fqzlala 发表于 2017-3-6 15:00
采集量比较大,少量是可以人工盯一下,大量的就不行了,出现验证码还不规律,只能付费用连续打码。我现在 ...

验证码问题不是规则可以解决的,因为你不知道如果跳到了验证码的页面具体的验证码是什么,你就没办法在规则里面定义怎么输入,所以就只能人工输入或者对接打码平台

举报 使用道具
5#
fqzlala 中级会员 发表于 2017-3-6 15:22:53 | 只看该作者
quyixuan 发表于 2017-3-6 15:10
验证码问题不是规则可以解决的,因为你不知道如果跳到了验证码的页面具体的验证码是什么,你就没办法在规 ...

跳转的页面和正常采集的页面肯定不一样,根据跳转需要输入验证码的页面特点做一个规则,存连续动作,专门自动打码,这样不行吗?
跳转输入验证码的页面大体一样,这样就有验证码图片,输入框和提交按钮了

举报 使用道具
6#
quyixuan 金牌会员 发表于 2017-3-6 15:33:10 | 只看该作者
本帖最后由 quyixuan 于 2017-3-6 15:34 编辑
fqzlala 发表于 2017-3-6 15:22
跳转的页面和正常采集的页面肯定不一样,根据跳转需要输入验证码的页面特点做一个规则,存连续动作,专门 ...

那你连续动作的规则里面输入什么是要根据验证码图片的内容才行,你在规则里面没有办法确定到底要输入什么吧

举报 使用道具
7#
fqzlala 中级会员 发表于 2017-3-6 15:36:18 | 只看该作者
quyixuan 发表于 2017-3-6 15:33
那你连续动作的规则里面输入什么是要根据验证码图片的内容才行,你在规则里面没有办法确定到底要输入什么 ...

是啊,付费,旗舰版,可以用打码,打码连接第三方平台,云速或联众打码,是不是就可以自动填写了?

举报 使用道具
8#
ym 版主 发表于 2017-3-6 17:21:14 | 只看该作者
fqzlala 发表于 2017-3-6 15:36
是啊,付费,旗舰版,可以用打码,打码连接第三方平台,云速或联众打码,是不是就可以自动填写了?

...

在同一个主题名再新建一个规则,用于出现验证码的网页就可以了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-26 09:01