四个规则主题名:
列表页第一级:路标_商户列表
商户详情页第二级:路标_商户列表_商户详情  //*[contains(@class, 'branch')]/text()
商户详情页第二级连续动作&层级抓取一级:路标_商户列表_商户详情_更多信息
商户详情页第二级连续动作&层级抓取二级:路标_商户列表_商户详情_更多信息_详情

整个规则测试无大问题,现出现一个问题就是:

抓取第二个主题规则,也即是“商户详情页第二级”,DS打数机匹配失败,但是又能输出正确数据。
劳烦,帮忙查看下是什么问题。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2016-12-29 21:09

沙发
ym 版主 发表于 2016-12-29 10:32:06 | 只看该作者
你把采集失败的网址加载到规则里分析一下,通常是结构不同导致的,参考教程http://www.gooseeker.com/doc/article-272-1.html
另外,你说的DS打数机抓取失败但又能得到正确的数据,这个不太可能,得到的数据应该是抓成功的网页,抓失败的都不会生成xml文件
举报 使用道具
板凳
ym 版主 发表于 2016-12-29 11:21:29 | 只看该作者
测试了一下你的规则,抓失败不是第二级规则的问题,而是第三级规则造成的,你把第三级规则的整理箱标签都做上定位标志就好了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
ym 版主 发表于 2016-12-29 11:47:50 | 只看该作者
你的第三级规则,“营业时间”有时会改变顺序,这样就会采集失败,可以删掉这个标签或者是不勾关键内容,这样即使错位也不影响采集,如果一定要抓营业时间这个信息,只能自定义xpath来提取,如下图


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
ym 版主 发表于 2016-12-29 14:08:25 | 只看该作者
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接
举报 使用道具
6#
meicairen 高级会员 发表于 2016-12-29 15:02:13 | 只看该作者
ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接 ...

整个怎么抓
举报 使用道具
7#
ym 版主 发表于 2016-12-29 15:12:27 | 只看该作者
本帖最后由 ym 于 2016-12-29 15:14 编辑

直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
meicairen 高级会员 发表于 2016-12-29 15:26:21 | 只看该作者
ym 发表于 2016-12-29 14:08
你的第二级规则和第三级规则可以合并到一个规则里,因为不用点击“更多信息”,就可以抓里面的“详情”链接 ...

您好,我尝试了下,是可以把三级规则并在二级里面,但是按照您给的自定义xpath失败了,麻烦您帮忙看下,是什么原因:







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
meicairen 高级会员 发表于 2016-12-29 15:28:37 | 只看该作者
ym 发表于 2016-12-29 15:12
直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

这样啊,太厉害了,又学到一招了
举报 使用道具
10#
meicairen 高级会员 发表于 2016-12-29 15:47:58 | 只看该作者
ym 发表于 2016-12-29 15:12
直接抓,你直接在第二级规则的样本页面,找到“详情”对应的网页节点映射到整理箱的新标签里就行

...

整个我解决好了,那个“营业时间”xpath自定义的一直没设置好,能帮我看下吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-28 22:17