问题描述:抓取天猫搜索页面,不固定时间,无规律出现验证码。配置打码页面后,自动打码不运行,显示采集完成
求各位大大帮忙

目前操作方法如下
抓取天猫搜索页面,不固定时间,无规律出现验证码。
1.配置2个爬虫---

主题:天猫一级带自动打码
规则编号:一级页面
主题:天猫一级带自动打码
规则编号:打码页面
打码页面地址:https://sec.taobao.com/query.htm ... BCIQ%3D%3D#J_Filter

3.规则编号:打码页面
1.关键内容已勾选
2.连续动作
目标主题名:天猫一级带自动打码
图片定位://*[@id='query']/div[position()=1]/p[position()=3]
输入框定位://*[@id='query']/div[position()=1]/p[position()=4]
提交定位://*[@id='query']/div[position()=2]

高级设置如下
额外延时:0
尝试次数:0/1(都试过不可以)
重复次数:1
必做已勾选,其他未勾选

打码平台已购买点数,输入正确账户和密码






举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-3-16 11:45

沙发
xandy 论坛元老 发表于 2017-3-15 21:08:31 | 只看该作者
打码的话要针对出现验证码的网页做打码动作,好好参看教程:《连续打码:破解各种验证码连续采数据——以工商信息网为例
举报 使用道具
板凳
leixiaola 金牌会员 发表于 2017-3-15 21:16:08 | 只看该作者
xandy 发表于 2017-3-15 21:08
打码的话要针对出现验证码的网页做打码动作,好好参看教程:《连续打码:破解各种验证码连续采数据——以工 ...

就是参考这个教程操作的


Tips1:对于采集过程中会弹出验证码的情况如何做规则?

在同一个主题名下建立两个规则,两者的规则编号是不同的,第一个规则就采集正常网页的目标信息,第二个规则就是专门解决验证码弹窗的页面,这样爬虫在遇到验证码弹窗时就会自动输入和验证,然后再回到正常的页面继续采集。


举报 使用道具
地板
Fuller 管理员 发表于 2017-3-15 21:47:29 | 只看该作者
leixiaola 发表于 2017-3-15 21:16
就是参考这个教程操作的

关键是这些:
图片定位://*[@id='query']/div[position()=1]/p[position()=3]
输入框定位://*[@id='query']/div[position()=1]/p[position()=4]
提交定位://*[@id='query']/div[position()=2]

不知道这3个表达式是不是真的就是
1,那个验证码的图片表达式,按理说应该是个img,不应该是一个p
2,输入验证码的输入框表达式,按理说应该是一个input
3,提交按钮,按理说也应该是一个input

由于验证码不总是出现,要观察DS打数机,等出现验证码的时候,这个时候一般来说再用MS谋数台加载网页也会出现验证码

举报 使用道具
5#
leixiaola 金牌会员 发表于 2017-3-15 21:53:02 | 只看该作者
本帖最后由 leixiaola 于 2017-3-15 22:06 编辑
Fuller 发表于 2017-3-15 21:47
关键是这些:
图片定位://*[@id='query']/div/p
输入框定位://*[@id='query']/div/p

Xpath不是要写到区块节点的么?
按照教程中的xpath也没有image  和input 字节

IMG_2412.PNG (465.99 KB, 下载次数: 1055)

IMG_2412.PNG
举报 使用道具
6#
Fuller 管理员 发表于 2017-3-15 22:21:49 | 只看该作者
leixiaola 发表于 2017-3-15 21:53
Xpath不是要写到区块节点的么?
按照教程中的xpath也没有image  和input 字节
...

那个教程用的是//* 这样的表达式,你看不出来是img还是input,不能定位到区块节点,一定要准确定位
举报 使用道具
7#
leixiaola 金牌会员 发表于 2017-3-15 22:34:55 | 只看该作者
Fuller 发表于 2017-3-15 22:21
那个教程用的是//* 这样的表达式,你看不出来是img还是input,不能定位到区块节点,一定要准确定位
...

好滴,我明天在调整一下,希望成功
还想请教一下,如果速度和翻页次数都为0,对验证码识别有影响么?
举报 使用道具
8#
Fuller 管理员 发表于 2017-3-16 09:33:13 | 只看该作者
leixiaola 发表于 2017-3-15 22:34
好滴,我明天在调整一下,希望成功
还想请教一下,如果速度和翻页次数都为0,对验证码识别有影响么?
...

在哪里设置的翻页次数?是滚屏次数吧?滚屏能放慢速度,防止过快地做识别
举报 使用道具
9#
leixiaola 金牌会员 发表于 2017-3-16 10:30:52 | 只看该作者
本帖最后由 leixiaola 于 2017-3-16 11:24 编辑
Fuller 发表于 2017-3-16 09:33
在哪里设置的翻页次数?是滚屏次数吧?滚屏能放慢速度,防止过快地做识别
...
按照您说的输入精准定位的XPATH依然不能正常运行
图片定位://*[@class='view']/p[position()=3]/img




举报 使用道具
10#
leixiaola 金牌会员 发表于 2017-3-16 11:26:56 | 只看该作者
Fuller 发表于 2017-3-16 09:33
在哪里设置的翻页次数?是滚屏次数吧?滚屏能放慢速度,防止过快地做识别
...

输入定位//*[@id='checkcodeInput']



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 18:21