我抓取的是淘宝网产品的信息和评论。知道淘宝网内分为两种网页结构,淘宝的跟天猫的。所以做了一个主题下做了两个规则。
在打数机中,天猫的全部抓取正确,但是淘宝有的可以有的不行。按照错误线索加载,发现有的加载正确,有的加载错误。这是什么原因呢?
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-6-30 18:24

沙发
Fuller 管理员 发表于 2016-6-30 10:26:26 | 只看该作者
规则名是什么?失败线索号是多少?
举报 使用道具
板凳
759924607 高级会员 发表于 2016-6-30 10:36:19 | 只看该作者
Fuller 发表于 2016-6-30 10:26
规则名是什么?失败线索号是多少?


主题名称:页面记录仪采集(下分两个规则)
我目前找到两个错误,一个是宝贝下架导致定位不到抓取内容,从而抓取失败。另一个是网页上结构发生变化,没有原来映射的内容,抓取失败。如下图: 这个地方本来是标价格的,现在必须登陆后才能看。

举报 使用道具
地板
ym 版主 发表于 2016-6-30 11:35:37 | 只看该作者
759924607 发表于 2016-6-30 10:36
主题名称:页面记录仪采集(下分两个规则)
我目前找到两个错误,一个是宝贝下架导致定位不到抓取内容, ...

对于下架的网页,可以在同个主题下,再做一个规则专门抓下架的产品页面;也可以不管它,这样采集失败了就会去采集下一条线索。
对于需要登录才能看到的信息,你就要先在浏览器上登陆好账号,再打开爬虫去采数据。
对于某些商品可能不存在的信息,规则中就不要对这个抓取内容设置关键内容;对于可能不存在的信息,也可以在规则中自定义xpath解决。
举报 使用道具
5#
Fuller 管理员 发表于 2016-6-30 11:43:56 | 只看该作者
关于“抓取成功,但爬虫参数还有优化空间以提高抓取速度”的日志,可以参照这篇文章优化:http://www.gooseeker.com/doc/thread-233-1-1.html
举报 使用道具
6#
759924607 高级会员 发表于 2016-6-30 16:29:15 | 只看该作者
ym 发表于 2016-6-30 11:35
对于下架的网页,可以在同个主题下,再做一个规则专门抓下架的产品页面;也可以不管它,这样采集失败了就 ...


像这种,我无论咋做内容定位都是失败。是我选的不对吗?我做网页标记一般选淘宝网的网址。@src或者@href。定位标志也都做了。总之再次加载就会清空。

当然这只是一部分了。淘宝页面内,别的也是,价格、详情信息这些。就是定位不到。测试的时候还行,再次加载就没了。
举报 使用道具
7#
Fuller 管理员 发表于 2016-6-30 17:42:52 | 只看该作者
759924607 发表于 2016-6-30 16:29
像这种,我无论咋做内容定位都是失败。是我选的不对吗?我做网页标记一般选淘宝网的网址。@src或者@href ...

作为标志的抓取内容,最好要用自定义xpath,里面含有这样的语句  contains(., 'xxxx'),比如,如果是src,可能是这样  contains(@src, 'taobao'),表示只有是淘宝的网址才符合。

如果没有自定义xpath,那么只是判断这个src是否存在,对于一个复杂网页来说,src肯定会有。

另外,尽量用上定位标志映射
举报 使用道具
8#
759924607 高级会员 发表于 2016-6-30 17:58:58 | 只看该作者
Fuller 发表于 2016-6-30 17:42
作为标志的抓取内容,最好要用自定义xpath,里面含有这样的语句  contains(., 'xxxx'),比如,如果是src ...

定位标志我一般都会用到,就这些用上也没显示。那我再了解一下Xpath吧。您的意思就是,用自定义Xpath就可以解决这个问题了吧?
举报 使用道具
9#
Fuller 管理员 发表于 2016-6-30 18:24:22 | 只看该作者
759924607 发表于 2016-6-30 17:58
定位标志我一般都会用到,就这些用上也没显示。那我再了解一下Xpath吧。您的意思就是,用自定义Xpath就可 ...

只是给标志映射一下,因为网页上有很多src,这样的映射可能会没有约束力,所以,在这种情况下应该用上自定义xpath,里面要含一个contains()函数,进一步约束一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:17