怎么自定义xpath才能只把经纬度提取出来？

Fuller

问：怎么自定义xpath才能只把经纬度提取出来？

答：这个帖子讨论了自定义xpath的使用方法：http://www.gooseeker.com/doc/thread-542-1-1.html

问：这个位置该怎么写xpath？生成的抓取规则有如下片段

<经纬度>
<xsl:value-of select="following-sibling::div[position()=1]/script[position()=1]/text()"/>
</经纬度>

答：参照这个帖子：http://www.gooseeker.com/doc/thread-542-1-1.html，为“经纬度”这个抓取内容做类似那个步骤，但是设置自定义xpath的时候，不要选“兼做定位”，那么 “定位标志表达式”处填入你自动生成的这个：following-sibling::div[position()=1]/script[position()=1]/text()，“抓取内容表达式”填写substring-before(substring-after(following-sibling::div[position()=1]/script[position()=1]/text(), '})'))。就会把 112.9435503,lat:28.16865872 抓出来。

函数的说明参看：http://www.w3school.com.cn/xpath/xpath_functions.asp

如果想把经度和纬度分开存，那么就建两个抓取内容。

问：报错了

是不是这里不对？

答：不好意思，写错了，应该是substring-before(substring-after(following-sibling::div[position()=1]/script[position()=1]/text(), '({lng:'), '})')

问：测试成功了，还有一个问题，这一个线索可以了，那下一个做定位的时候会不会有问题

答：div[position()=1]/script[position()=1] 这两个position()最容易出问题，万一下一个网页的位置不在1，而是2，就不行了，那么也可以写成有适应力的

问：怎么写成有适应力的？

答：following-sibling::div/script/text()[contains(., '({lng:')]，拷贝到定位标志表达式中。这个就是假定凡是有经纬度的信息，里面都有 ({lng: 这样的标志，这样通用性就好很多了

你做这个规则，还有好几个地方通用性都不强，没有用定位标志映射，虽然是可选的，但是可以提高通用性

问：这个。。。怎么提高通用性

答：//*[@id='body']/div[position()=2]/div[position()=3] 这种好几层含有position()，万一div多一个，少一个都受影响
选中含有@class='shop-name'的H1，用定位标志映射给名称
选中那个含有@class='aside'的DIV，用定位标志映射给经纬度

问：都是大众点评网上的同级网页，网页结构应该是一样的吧

答：有时候网页上会插入广告之类的，会有变化。
生成的规则中的xpath就会变短，就会提高通用性，但是也要相应地修改自定义xpath那个抓经纬度的式子。
可以先去掉“高级设置”，生成了抓取规则以后，再根据生成的xpath，编写自定义的xpath

问：经纬度这个没法做定位映射，没有id或者class。要看他上一级吗？

答：用它上级。往上找，找个最近的。如果没有合适的就不用，不能离着太远

后续讨论：http://www.gooseeker.com/doc/thread-549-1-1.html

怎么自定义xpath才能只把经纬度提取出来？

本帖子中包含更多资源

相关帖子

共 0 个关于本帖的回复最后回复于 2015-10-1 22:59

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

怎么自定义xpath才能只把经纬度提取出来？

本帖子中包含更多资源

相关帖子

共 0 个关于本帖的回复 最后回复于 2015-10-1 22:59

推荐板块

精彩推荐

热门话题

热门用户

共 0 个关于本帖的回复最后回复于 2015-10-1 22:59