公司突然给我下发的任务,跟着教程研究gooseeker一个多月了。我现在采集的数据,就是图片中的数据了。一个是采集淘宝交易平台,另一个是采集京东众筹。

这两个网站的规则都已经建立好,并且测试、分析页面、再次加载都没有问题。每个规则的联系也比较简单,翻页采集网页上的大概信息,然后通过下级线索采集详情页信息。详情页中的评论、话题、或者项目进展通过模拟点击线索来做。
现在就是打数的时候,不知道哪一个过程不对,总是出错。而且,通过模拟点击采集数据,在打书机中并不跳转那个页面。还是希望大神能通过管理员权限看一下我的规则是哪里出错了!
最后一步,我就解放了!跪谢!叩谢!

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-7-8 18:03

沙发
Fuller 管理员 发表于 2016-7-7 23:24:38 | 只看该作者
我看了淘宝的“页面记录仪采集”,有个模拟点击“累计评价”,生成的xpath是
  1. //*[@class='main-wrap']/div[position()=1]//a[.//text()="累计评价 "]
复制代码
这个表达式不太好,因为起始节点与标志(累计评价)之间间隔很大,还有一个明确指定序号的position()=1,这样很容易规则失效。做线索映射的时候应该选择的节点尽量与定位标志近一点,比如,我重选节点以后,并且为定位选项选择偏好id,得到
  1. //*[@id='J_TabBar']//a[.//text()="累计评价 "]
复制代码
这样就更有适应性。

这套规则在运行的时候,一定要为DS打数机打开滚屏功能。

你具体说说到底是哪个规则不正确,否则这么多,我要一个个看,那要花很长时间
举报 使用道具
板凳
759924607 高级会员 发表于 2016-7-8 09:51:21 | 只看该作者
Fuller 发表于 2016-7-7 23:24
我看了淘宝的“页面记录仪采集”,有个模拟点击“累计评价”,生成的xpath是
这个表达式不太好,因为起始节 ...

具体说哪个规则不正确的话(也是我自己分析)。采集淘宝的,应该就是“页面记录仪采集”;采集众筹的,应该是“京东众筹智能锁项目进展”。它们都具有模拟点击。
关于您说节点尽量与定位标志近一点,我选择累计评论最近的那个节点做定位标志,测试的时候内容映射就变了,累计评论变成了掌柜推荐。有相同标志值,优先选择前边的。所以做标志映射都需要尝试着来(感觉像碰运气)。
经过您这样分析,是不是把累计评论(模拟点击),重新修改个好的定位标志就可以了?
举报 使用道具
地板
Fuller 管理员 发表于 2016-7-8 10:22:09 | 只看该作者
759924607 发表于 2016-7-8 09:51
具体说哪个规则不正确的话(也是我自己分析)。采集淘宝的,应该就是“页面记录仪采集”;采集众筹的,应 ...

我选择id='J_TabBar',这个是在页面上唯一的,针对这个节点做线索映射。

我刚才发现了一个问题
  1. //*[@id='J_TabBar']//a[.//text()="累计评价 "]
复制代码
累计评价后边有空格,那么不要选“全匹配”,而且手工把累积评价后面的空格删除

举报 使用道具
5#
759924607 高级会员 发表于 2016-7-8 11:17:11 | 只看该作者
Fuller 发表于 2016-7-8 10:22
我选择id='J_TabBar',这个是在页面上唯一的,针对这个节点做线索映射。

我刚才发现了一个问题

奥奥!明白!我再去完善一下规则。说起这个还有一个类似的问题。以前觉得没啥影响,就没注意。

像这种是测试时候显示的,有的就显示在一行。有的中间就加了很多空格。这个有影响嘛?
举报 使用道具
6#
Fuller 管理员 发表于 2016-7-8 12:15:48 | 只看该作者
759924607 发表于 2016-7-8 11:17
奥奥!明白!我再去完善一下规则。说起这个还有一个类似的问题。以前觉得没啥影响,就没注意。

像这种是 ...

这是抓取结果文件,对DS打数机的运行没有影响,但是你使用数据的时候,可能需要先把前后的空格删除了再用
举报 使用道具
7#
759924607 高级会员 发表于 2016-7-8 15:46:29 | 只看该作者
Fuller 发表于 2016-7-8 12:15
这是抓取结果文件,对DS打数机的运行没有影响,但是你使用数据的时候,可能需要先把前后的空格删除了再用 ...

爬数据爬了一遍,把抓取失败的线索加载了下。还是出现了一部分错误的。

上图的这种是整理箱内的内容全部都定位失败,导致抓取失败。

这种是内容定位都正确,规则也加载正确,爬数据也爬到了,并且建立了文件夹。
我再一改规则,有可能把可以正常采集到的内容,再改没啦?难道淘宝页面下也分了许多的网页结构吗?

举报 使用道具
8#
Fuller 管理员 发表于 2016-7-8 18:03:59 | 只看该作者
759924607 发表于 2016-7-8 15:46
爬数据爬了一遍,把抓取失败的线索加载了下。还是出现了一部分错误的。

上图的这种是整理箱内的内容全部 ...

这个整理箱太复杂,这些内容都是来自网页上不同区域的,很容易受到网页结构的变化,比如,区域之间只要插入一个div,可能就定位不到了。可以这样解决
1,尽量给容器节点做定位标志映射(其它抓取内容也尽量映射),比如,“价格信息”,“产品信息”也映射
2,把“产品信息”和“店家点评”放到另两个整理箱中

上面第二步是可选的,可以有效提高适应性
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 20:37