//*[@class='tm-clear J_TSaleProp tb-img     ']/li[position()=1]/a/@style
只保留"_"前面字符串后面的全部去除
这个xpath过滤要怎么写?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-5-23 09:07

沙发
数据集 高级会员 发表于 2018-5-22 18:04:08 | 只看该作者
可以用substring-before和substring-after这两个截取函数去截取。

用法可以参考《xpath常用函数用法》
举报 使用道具
板凳
winjeans 初级会员 发表于 2018-5-23 00:00:06 | 只看该作者
数据集 发表于 2018-5-22 18:04
可以用substring-before和substring-after这两个截取函数去截取。

用法可以参考《xpath常用函数用法》 ...

比较蠢。
这个用法如果有更具体的例子,应该能更好的理解。
文中的例子比较简短。

举报 使用道具
地板
数据集 高级会员 发表于 2018-5-23 09:05:55 | 只看该作者
winjeans 发表于 2018-5-23 00:00
比较蠢。
这个用法如果有更具体的例子,应该能更好的理解。
文中的例子比较简短。

只保留"_"前面字符串后面的全部去除,就用substring-before函数。


substring-before(str1,str2),用于返回字符串str1中位于第一个str2之前的部分, str1表示定位到该文本字符串的xpath,str2表示文本字符串中的某个字符,比如“-”。

要返回“-”前面的文本,类似于这样写  substring-before(定位到文本的xpath,'-'),需要把定位到文本的xpath替换到里面就行了

举报 使用道具
5#
Fuller 管理员 发表于 2018-5-23 09:07:25 | 只看该作者
winjeans 发表于 2018-5-23 00:00
比较蠢。
这个用法如果有更具体的例子,应该能更好的理解。
文中的例子比较简短。

其实最简单的方法是用excel进行处理。在爬虫规则中不要写太复杂的xpath,比较难调试。等导出成excel的时候,用excel的分列功能很容易把内容切开
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 14:56