大神求救啊！最后一步了！

加为好友

公司突然给我下发的任务，跟着教程研究gooseeker一个多月了。我现在采集的数据，就是图片中的数据了。一个是采集淘宝交易平台，另一个是采集京东众筹。

这两个网站的规则都已经建立好，并且测试、分析页面、再次加载都没有问题。每个规则的联系也比较简单，翻页采集网页上的大概信息，然后通过下级线索采集详情页信息。详情页中的评论、话题、或者项目进展通过模拟点击线索来做。
现在就是打数的时候，不知道哪一个过程不对，总是出错。而且，通过模拟点击采集数据，在打书机中并不跳转那个页面。还是希望大神能通过管理员权限看一下我的规则是哪里出错了！
最后一步，我就解放了！跪谢！叩谢！

Fuller · 发表于 2016-7-7 23:24:38

我看了淘宝的“页面记录仪采集”，有个模拟点击“累计评价”，生成的xpath是

//*[@class='main-wrap']/div[position()=1]//a[.//text()="累计评价 "]

复制代码

这个表达式不太好，因为起始节点与标志（累计评价）之间间隔很大，还有一个明确指定序号的position()=1，这样很容易规则失效。做线索映射的时候应该选择的节点尽量与定位标志近一点，比如，我重选节点以后，并且为定位选项选择偏好id，得到

//*[@id='J_TabBar']//a[.//text()="累计评价 "]

复制代码

这样就更有适应性。

这套规则在运行的时候，一定要为DS打数机打开滚屏功能。

你具体说说到底是哪个规则不正确，否则这么多，我要一个个看，那要花很长时间

759924607 · 发表于 2016-7-8 09:51:21

Fuller 发表于 2016-7-7 23:24
我看了淘宝的“页面记录仪采集”，有个模拟点击“累计评价”，生成的xpath是
这个表达式不太好，因为起始节 ...

具体说哪个规则不正确的话（也是我自己分析）。采集淘宝的，应该就是“页面记录仪采集”；采集众筹的，应该是“京东众筹智能锁项目进展”。它们都具有模拟点击。
关于您说节点尽量与定位标志近一点，我选择累计评论最近的那个节点做定位标志，测试的时候内容映射就变了，累计评论变成了掌柜推荐。有相同标志值，优先选择前边的。所以做标志映射都需要尝试着来（感觉像碰运气）。
经过您这样分析，是不是把累计评论(模拟点击)，重新修改个好的定位标志就可以了？

Fuller · 发表于 2016-7-8 10:22:09

759924607 发表于 2016-7-8 09:51
具体说哪个规则不正确的话（也是我自己分析）。采集淘宝的，应该就是“页面记录仪采集”；采集众筹的，应 ...

我选择id='J_TabBar'，这个是在页面上唯一的，针对这个节点做线索映射。

我刚才发现了一个问题

//*[@id='J_TabBar']//a[.//text()="累计评价 "]

复制代码

累计评价后边有空格，那么不要选“全匹配”，而且手工把累积评价后面的空格删除

759924607 · 发表于 2016-7-8 11:17:11

Fuller 发表于 2016-7-8 10:22
我选择id='J_TabBar'，这个是在页面上唯一的，针对这个节点做线索映射。

我刚才发现了一个问题

奥奥！明白！我再去完善一下规则。说起这个还有一个类似的问题。以前觉得没啥影响，就没注意。

像这种是测试时候显示的，有的就显示在一行。有的中间就加了很多空格。这个有影响嘛？

Fuller · 发表于 2016-7-8 12:15:48

759924607 发表于 2016-7-8 11:17
奥奥！明白！我再去完善一下规则。说起这个还有一个类似的问题。以前觉得没啥影响，就没注意。

像这种是 ...

这是抓取结果文件，对DS打数机的运行没有影响，但是你使用数据的时候，可能需要先把前后的空格删除了再用

759924607 · 发表于 2016-7-8 15:46:29

Fuller 发表于 2016-7-8 12:15
这是抓取结果文件，对DS打数机的运行没有影响，但是你使用数据的时候，可能需要先把前后的空格删除了再用 ...

爬数据爬了一遍，把抓取失败的线索加载了下。还是出现了一部分错误的。

上图的这种是整理箱内的内容全部都定位失败，导致抓取失败。

这种是内容定位都正确，规则也加载正确，爬数据也爬到了，并且建立了文件夹。
我再一改规则，有可能把可以正常采集到的内容，再改没啦？难道淘宝页面下也分了许多的网页结构吗？

Fuller · 发表于 2016-7-8 18:03:59

759924607 发表于 2016-7-8 15:46
爬数据爬了一遍，把抓取失败的线索加载了下。还是出现了一部分错误的。

上图的这种是整理箱内的内容全部 ...

这个整理箱太复杂，这些内容都是来自网页上不同区域的，很容易受到网页结构的变化，比如，区域之间只要插入一个div，可能就定位不到了。可以这样解决
1，尽量给容器节点做定位标志映射（其它抓取内容也尽量映射），比如，“价格信息”，“产品信息”也映射
2，把“产品信息”和“店家点评”放到另两个整理箱中

上面第二步是可选的，可以有效提高适应性

大神求救啊！最后一步了！

共 7 个关于本帖的回复最后回复于 2016-7-8 18:03

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

大神求救啊！最后一步了！

共 7 个关于本帖的回复 最后回复于 2016-7-8 18:03

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2016-7-8 18:03