11#
cxw20141011 金牌会员 发表于 2016-1-7 18:15:43 | 只看该作者
Fuller 发表于 2016-1-4 15:17
当前我也在抓淘宝数据,没有感到很严重的封锁,也可能是我抓取的内容以评论为主 ...

请问是否帮我抓取测试下规则呢?
规则第一层:fluke20160107
规则第二层:fluke20160107_sales

规则描述:抓取淘宝宝贝的基本信息(如:销量)
采集出现的问题:慢抓最多不超过1小时,肯定会出现登录框或者验证码框。导致销量数据不加载出来。

谢谢。
举报 使用道具
12#
gooseeker_info 金牌会员 发表于 2016-1-7 19:02:14 | 只看该作者
cxw20141011 发表于 2016-1-7 18:15
请问是否帮我抓取测试下规则呢?
规则第一层:fluke20160107
规则第二层:fluke20160107_sales

我们测试了,现在淘宝封锁很厉害,必须要放慢速度,或者多用一些电脑。把抓取成本提高了
举报 使用道具
13#
cxw20141011 金牌会员 发表于 2016-1-7 19:30:55 | 只看该作者
gooseeker_info 发表于 2016-1-7 19:02
我们测试了,现在淘宝封锁很厉害,必须要放慢速度,或者多用一些电脑。把抓取成本提高了 ...

非常感谢测试的数据,这样对比我就清楚,应该不是我个人操作或者设置的问题呢。

因为是我一个人在摸索,所以一直没有找到相对比较好的解决方法。
原因是,每次用一台电脑抓取数据(登陆账号),登陆了可能1-2个小时就会再次弹出登录框,要求登陆(输入密码)。【只要出现登录框,就抓取不到销量,所以要一直看着。出现了就手动登陆。现在抓数据的过程只能用“艰难”来形容。

1.如果淘宝这种问题暂时没有办法解决吧话,
请问是否有方法可以解决 登陆账号后不再次出现登录框?
(如果这个问题可以解决,至少还是可以抓数据的。 淘宝现在这种情况上个月还没有,现在封锁力度特别大。)

2.这个问题外,我还想问的是,您这边是否有解决方案呢,具体可以交流下。
举报 使用道具
14#
Fuller 管理员 发表于 2016-1-7 22:10:58 | 只看该作者
cxw20141011 发表于 2016-1-7 19:30
非常感谢测试的数据,这样对比我就清楚,应该不是我个人操作或者设置的问题呢。

因为是我一个人在摸索, ...

本来可以用自动登录方式,但是最近他们把验证码方式都改成拖动滑块方式了,自动打验证码也不行了
举报 使用道具
15#
Fuller 管理员 发表于 2016-1-7 22:14:02 | 只看该作者
抓取不到价格的话,可以在处理抓取结果的程序中做些动作,比如,发出一个告警,可以人工作一下维护,换账号和重登录。在一些特殊项目里面,我们可以编写程序,遇到这种情况马上就停止给爬虫下发任务了,等待人工干预后再恢复。但是,用免费版的话,不能直接编程序进行对接,春节后会公布一些API
举报 使用道具
16#
cxw20141011 金牌会员 发表于 2016-1-8 09:34:24 | 只看该作者
Fuller 发表于 2016-1-7 22:10
本来可以用自动登录方式,但是最近他们把验证码方式都改成拖动滑块方式了,自动打验证码也不行了 ...

确实,有的时候登陆需要拖动滑块,有些时候需要扫码登陆。
举报 使用道具
17#
cxw20141011 金牌会员 发表于 2016-1-8 09:40:39 | 只看该作者
Fuller 发表于 2016-1-7 22:14
抓取不到价格的话,可以在处理抓取结果的程序中做些动作,比如,发出一个告警,可以人工作一下维护,换账号 ...

我明白,我的意思就是咨询收费版的,因为目的是要抓取数据,所以就需要一些解决方法,具体是否有邮箱可以沟通呢。
举报 使用道具
18#
ym 版主 发表于 2016-1-8 10:21:19 | 只看该作者
cxw20141011 发表于 2016-1-8 09:40
我明白,我的意思就是咨询收费版的,因为目的是要抓取数据,所以就需要一些解决方法,具体是否有邮箱可以 ...

邮箱:info@gooseeker.com,有问题也可以发邮件咨询
举报 使用道具
19#
gooseeker_info 金牌会员 发表于 2016-1-8 10:53:58 | 只看该作者
cxw20141011 发表于 2016-1-4 16:48
打开宝贝的页面, 然后再去采集评论数或成交记录。
我是觉得采集评论数或成交记录更难,更容易出现验证码 ...

我想起一个经验:如果有很多产品下架了,还用原来的网址去采集,更加容易触发验证码
举报 使用道具
20#
cxw20141011 金牌会员 发表于 2016-1-8 13:20:24 | 只看该作者
gooseeker_info 发表于 2016-1-8 10:53
我想起一个经验:如果有很多产品下架了,还用原来的网址去采集,更加容易触发验证码 ...

谢谢,这个确实是这样的。 好几天前的线索,今天来抓,会更容易出现下架。也就更容易触发验证码。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 04:06