本帖最后由 jianwen_123 于 2016-7-14 12:03 编辑

想获取搜房案例中的房源编号,做内容映射时获得的文本“房源编号:156980686”,现在只想截取冒号之后的数字


C:\Users\dell\Desktop\结果图
C:\Users\dell\Desktop\自定义xpath
用substring-after函数,在自定义抓取规则中依次输入:
抓取内容表达式:
/html/body/div[position()=8]/div[position()=2]/div[position()=3]/div[position()=1]/p/span[last()-1]
定位标志表达式:
substring-after(/html/body/div[position()=8]/div[position()=2]/div[position()=3]/div[position()=1]/p/span[last()-1]/text(),':')
但测试规则时报错“为整理箱生成结果时发生异常”。请问大神错在哪里?是抓取内容表达式有问题吗,还是自定义xpath后进行内容映射的时候出现问题。谢谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-14 14:22

沙发
ym 版主 发表于 2016-7-14 14:21:36 | 只看该作者
本帖最后由 ym 于 2016-7-14 14:25 编辑

定位标志表达式是用来定位采集范围的,填的是节点的xpath路径,不能是xpath函数;
想要指定抓定位标志表达式中填的xpath范围内的特定信息,应该是在抓取内容表达式中填该节点的相对xpath路径,或该节点的相对路径的xpath函数;

更多xpath的问题参见http://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
板凳
HJLing 版主 发表于 2016-7-14 14:22:02 | 只看该作者
substring-after后面的括号应该是英文的括号 函数的第二个参数的冒号应该和网页保持一致用中文的  
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-20 01:45