11#
ym 版主 发表于 2016-12-29 16:02:09 | 只看该作者
本帖最后由 ym 于 2016-12-29 16:37 编辑

要选文本内容和专用定位,还要在定位标志表达式里填上点,另外建议对详情链接这些隐藏的信息做上定位标志映射,提高定位精确度


举报 使用道具
12#
meicairen 高级会员 发表于 2016-12-29 16:09:18 | 只看该作者
按照您给的方法,测试了下还是不行
举报 使用道具
13#
meicairen 高级会员 发表于 2016-12-29 16:11:08 | 只看该作者
ym 发表于 2016-12-29 16:02
要选内容定位和专用定位,还有在定位标志表达式里填上点,另外建议对详情链接这些隐藏的信息做上定位标志映 ...

我估计是我自定义输入的公式错误了,有几个字符可能输入错了,您能把您输的公式贴出来吗?
举报 使用道具
14#
ym 版主 发表于 2016-12-29 16:36:18 | 只看该作者
//*[contains(.,'营业时间')]/following-sibling::span

你还要把规则里的连续动作删掉,第三级都没有用了
举报 使用道具
15#
meicairen 高级会员 发表于 2016-12-29 17:22:04 | 只看该作者
ym 发表于 2016-12-29 16:36
//*[contains(.,'营业时间')]/following-sibling::span

你还要把规则里的连续动作删掉,第三级都没有用了 ...

营业时间,我测试成功了。能帮我解释下,你这个xpath公式分为几个部分,分别是什么含义吗?我想其他字段也这样定义
举报 使用道具
16#
meicairen 高级会员 发表于 2016-12-29 17:52:44 | 只看该作者
meicairen 发表于 2016-12-29 17:22
营业时间,我测试成功了。能帮我解释下,你这个xpath公式分为几个部分,分别是什么含义吗?我想其他字段 ...

您方便的时候可以帮我写下“详情”的xpath公式吗?
举报 使用道具
17#
Fuller 管理员 发表于 2016-12-29 21:09:29 | 只看该作者
meicairen 发表于 2016-12-29 17:22
营业时间,我测试成功了。能帮我解释下,你这个xpath公式分为几个部分,分别是什么含义吗?我想其他字段 ...

ym给出的自定义XPath应该这样理解:

1,定位标志表达式,是
  1. .
复制代码

表示任何一个节点。所以,这个定位表达式就是永远有效了。这个定位标志表达式是抓取规则加载到工作台上的时候使用的。如果所有抓取内容都这样定义规则,就不可能加载失败了。

如果网页上的内容有时候有有时候没有,这样写定位标志表达式就总是有效

2,抓取内容表达式:由DS打数机使用,而不是由MS谋数台使用,所以,这个表达式决定了是否能抓到内容,而不管是否能把规则加载到工作台上。

ym这种写法是一种很巧妙的用法,做出来的规则无论什么时候都能加载到工作台上,但是,如果你把大部分抓取内容都这样处理,等下次加载规则的时候,你会发现抓取内容定位到的节点会很怪
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 11:24