层级抓取，第二级DS打数机调度抓取失败

meicairen

四个规则主题名：
列表页第一级：路标_商户列表
商户详情页第二级：路标_商户列表_商户详情 //*[contains(@class, 'branch')]/text()
商户详情页第二级连续动作&层级抓取一级：路标_商户列表_商户详情_更多信息
商户详情页第二级连续动作&层级抓取二级：路标_商户列表_商户详情_更多信息_详情

整个规则测试无大问题，现出现一个问题就是：

抓取第二个主题规则，也即是“商户详情页第二级”，DS打数机匹配失败，但是又能输出正确数据。
劳烦，帮忙查看下是什么问题。

ym · 发表于 2016-12-29 10:32:06

你把采集失败的网址加载到规则里分析一下，通常是结构不同导致的，参考教程http://www.gooseeker.com/doc/article-272-1.html
另外，你说的DS打数机抓取失败但又能得到正确的数据，这个不太可能，得到的数据应该是抓成功的网页，抓失败的都不会生成xml文件

ym · 发表于 2016-12-29 11:21:29

测试了一下你的规则，抓失败不是第二级规则的问题，而是第三级规则造成的，你把第三级规则的整理箱标签都做上定位标志就好了

ym · 发表于 2016-12-29 11:47:50

你的第三级规则，“营业时间”有时会改变顺序，这样就会采集失败，可以删掉这个标签或者是不勾关键内容，这样即使错位也不影响采集，如果一定要抓营业时间这个信息，只能自定义xpath来提取，如下图

ym · 发表于 2016-12-29 14:08:25

你的第二级规则和第三级规则可以合并到一个规则里，因为不用点击“更多信息”，就可以抓里面的“详情”链接

meicairen · 发表于 2016-12-29 15:02:13

ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里，因为不用点击“更多信息”，就可以抓里面的“详情”链接 ...

整个怎么抓

ym · 发表于 2016-12-29 15:12:27

本帖最后由 ym 于 2016-12-29 15:14 编辑

直接抓，你直接在第二级规则的样本页面，找到“详情”对应的网页节点映射到整理箱的新标签里就行

meicairen · 发表于 2016-12-29 15:26:21

ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里，因为不用点击“更多信息”，就可以抓里面的“详情”链接 ...

您好，我尝试了下，是可以把三级规则并在二级里面，但是按照您给的自定义xpath失败了，麻烦您帮忙看下，是什么原因：

meicairen · 发表于 2016-12-29 15:28:37

ym 发表于 2016-12-29 15:12
直接抓，你直接在第二级规则的样本页面，找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

这样啊，太厉害了，又学到一招了

meicairen · 发表于 2016-12-29 15:47:58

ym 发表于 2016-12-29 15:12
直接抓，你直接在第二级规则的样本页面，找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

整个我解决好了，那个“营业时间”xpath自定义的一直没设置好，能帮我看下吗

层级抓取，第二级DS打数机调度抓取失败

本帖子中包含更多资源

共 16 个关于本帖的回复最后回复于 2016-12-29 21:09

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

层级抓取，第二级DS打数机调度抓取 失败

本帖子中包含更多资源

共 16 个关于本帖的回复 最后回复于 2016-12-29 21:09

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

层级抓取，第二级DS打数机调度抓取失败

共 16 个关于本帖的回复最后回复于 2016-12-29 21:09