因为经常抓取数据,之前几个月一直没有问题。 最近抓取数据总是出现验证码导致数据抓取不到。【用crontab.xml文件配置抓取的(1个电脑 2个窗口抓同一规则)】

换过几台电脑(不同地区的,有登陆账号,也有不登陆账号的), 没多久就出现验证码。 请问为什么会这么快被淘宝检测出来呢,我试过很多方式,调整抓取速度,滚屏速度等等。 结果都是一样,实在想不通。问题出在哪里
举报 使用道具
| 回复

共 20 个关于本帖的回复 最后回复于 2018-7-21 20:26

沙发
Fuller 管理员 发表于 2016-1-1 20:20:31 | 只看该作者
可以做下面的应对:
1)在火狐里面清除所有cookie和浏览历史,如果是ADSL拨号的话,重新拨号,换个IP,重新运行火狐和爬虫
2)crontab里面设置一下minIdle和maxIdle,比如设置成2-5,会改善一些
3)产品页的网址怎么来的?要么就是url中有什么参数,专门用来检测时效的。可以尝试一下,详情页网址都是从上一级规则采集下来,而且保持足够新鲜。今天我们办公室停电,可以等上班以后,在我们办公室运行一下试试
举报 使用道具
板凳
cxw20141011 金牌会员 发表于 2016-1-1 22:15:35 | 只看该作者
规则是,第一层抓取淘宝搜索页面,URL线索到第二层规则。 第二层只抓宝贝页面上的基本信息。(如:价格,销量)
-------------------------
目前遇到宝贝页面出现登录框或者验证码。 我尝试过如下操作:
常用电脑:清除所有cookie和浏览历史,尝试不登账号和登账号  都会出现要求输入验证码。
远程电脑:完全没有用过的电脑,有adsl拨号,配置好用火狐抓,还是出现验证码(不登陆账号)。

crontab配置,参数试过5-6次都是慢的。目前还是这样。

-----------------以上是发帖之前的操作。
之后我把第一下层的链接稍微调整下(抓取的位置换了,URL有一点变化)。
然后抓取情况一点,变成天猫的商品一定需要登陆。 集市店的商品可以直接抓取。
(中间的变化就是2个:1.换了规则抓其他数据   2.改了抓取第一层的规则的url位置。) 情况好一点,问题还是在。


举报 使用道具
地板
Fuller 管理员 发表于 2016-1-1 22:39:45 | 只看该作者
cxw20141011 发表于 2016-1-1 22:15
规则是,第一层抓取淘宝搜索页面,URL线索到第二层规则。 第二层只抓宝贝页面上的基本信息。(如:价格,销 ...

周一上班我们试一下,目前我们也在抓淘宝数据,周一对比一下情况
举报 使用道具
5#
cxw20141011 金牌会员 发表于 2016-1-1 22:51:23 | 只看该作者
Fuller 发表于 2016-1-1 22:39
周一上班我们试一下,目前我们也在抓淘宝数据,周一对比一下情况

好的
举报 使用道具
6#
Fuller 管理员 发表于 2016-1-4 11:05:46 | 只看该作者

是否登录了淘宝,根据我们的经验,不登录的话就受到限制
举报 使用道具
7#
cxw20141011 金牌会员 发表于 2016-1-4 13:52:03 | 只看该作者
Fuller 发表于 2016-1-4 11:05
是否登录了淘宝,根据我们的经验,不登录的话就受到限制

不登陆账号,随便在哪个电脑,都会出现登录框限制,登陆账号就没有问题。

我想问一下,现在淘宝都这样限制了吗,只是抓取一些基本信息。登陆账号大概3个小时左右就要重新输入一次密码才能继续抓,否则还是会出现验证码。

上个月之前都是不登陆账号也没有问题的。

----------------------------
上次8月份和您邮件沟通的事情,目的我是准备做,具体我测试好数据会再和您邮件沟通。
现在我想问一下这种问题是否可以解决呢,如果是企业版等。 目的是抓取宝贝的基本信息,不涉及到评论数及成交记录。
举报 使用道具
8#
cxw20141011 金牌会员 发表于 2016-1-4 13:54:37 | 只看该作者
Fuller 发表于 2016-1-4 11:05
是否登录了淘宝,根据我们的经验,不登录的话就受到限制

我修改了第一层的规则,基本情况应该是:
一开始抓数据,不知道为什么账号可能被封,所以抓数据就会出现机器人输入验证码,后来关机一天就好了。
之后抓取的数据只有登录账号,才能正常的抓取数据。(和线索URL应该是没有关系)
举报 使用道具
9#
Fuller 管理员 发表于 2016-1-4 15:17:55 | 只看该作者
cxw20141011 发表于 2016-1-4 13:54
我修改了第一层的规则,基本情况应该是:
一开始抓数据,不知道为什么账号可能被封,所以抓数据就会出现 ...

当前我也在抓淘宝数据,没有感到很严重的封锁,也可能是我抓取的内容以评论为主
举报 使用道具
10#
cxw20141011 金牌会员 发表于 2016-1-4 16:48:58 | 只看该作者
Fuller 发表于 2016-1-4 15:17
当前我也在抓淘宝数据,没有感到很严重的封锁,也可能是我抓取的内容以评论为主 ...

打开宝贝的页面, 然后再去采集评论数或成交记录。
我是觉得采集评论数或成交记录更难,更容易出现验证码,
我现在只是打开宝贝的页面,采集一些信息。

也许是我IP的问题~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 18:58