四个规则主题名:
列表页第一级:路标_商户列表
商户详情页第二级:路标_商户列表_商户详情  //*[contains(@class, 'branch')]/text()
商户详情页第二级连续动作&层级抓取一级:路标_商户列表_商户详情_更多信息
商户详情页第二级连续动作&层级抓取二级:路标_商户列表_商户详情_更多信息_详情

整个规则测试无大问题,现出现一个问题就是:

抓取第二个主题规则,也即是“商户详情页第二级”,DS打数机匹配失败,但是又能输出正确数据。
劳烦,帮忙查看下是什么问题。

举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-12-29 21:09

沙发
ym 版主 发表于 2016-12-29 10:32:06 | 只看该作者
你把采集失败的网址加载到规则里分析一下,通常是结构不同导致的,参考教程http://www.gooseeker.com/doc/article-272-1.html
另外,你说的DS打数机抓取失败但又能得到正确的数据,这个不太可能,得到的数据应该是抓成功的网页,抓失败的都不会生成xml文件
举报 使用道具
板凳
ym 版主 发表于 2016-12-29 11:21:29 | 只看该作者
测试了一下你的规则,抓失败不是第二级规则的问题,而是第三级规则造成的,你把第三级规则的整理箱标签都做上定位标志就好了


举报 使用道具
地板
ym 版主 发表于 2016-12-29 11:47:50 | 只看该作者
你的第三级规则,“营业时间”有时会改变顺序,这样就会采集失败,可以删掉这个标签或者是不勾关键内容,这样即使错位也不影响采集,如果一定要抓营业时间这个信息,只能自定义xpath来提取,如下图


举报 使用道具
5#
ym 版主 发表于 2016-12-29 14:08:25 | 只看该作者
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接
举报 使用道具
6#
meicairen 高级会员 发表于 2016-12-29 15:02:13 | 只看该作者
ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接 ...

整个怎么抓
举报 使用道具
7#
ym 版主 发表于 2016-12-29 15:12:27 | 只看该作者
本帖最后由 ym 于 2016-12-29 15:14 编辑

直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

举报 使用道具
8#
meicairen 高级会员 发表于 2016-12-29 15:26:21 | 只看该作者
ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接 ...

您好,我尝试了下,是可以把三级规则并在二级里面,但是按照您给的自定义xpath失败了,麻烦您帮忙看下,是什么原因:







举报 使用道具
9#
meicairen 高级会员 发表于 2016-12-29 15:28:37 | 只看该作者
ym 发表于 2016-12-29 15:12
直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

这样啊,太厉害了,又学到一招了
举报 使用道具
10#
meicairen 高级会员 发表于 2016-12-29 15:47:58 | 只看该作者
ym 发表于 2016-12-29 15:12
直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

整个我解决好了,那个“营业时间”xpath自定义的一直没设置好,能帮我看下吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 18:34