快捷导航
本帖最后由 ym 于 2015-12-17 22:00 编辑

常见问题 > 制作规则—常见问题导航 > 自定义xpath >爬取串数字,自定义XPath该怎么写

:爬取ends后面的那串数字,自定义XPath该怎么写,论坛上的自定义XPath都是基于自动生成的数据规则作修改的,而且这个在字段在页面上看不到,但是在网页源代码里是有的
html_search_a1.png

:用“搜索”这个新功能,先找到这个节点,写个xpath填到输入框中。

html_search_bt.png

比如,//button[contains(@detail:params, '144483')]  这个能不能有效我不太确定,因为这里涉及到 detail: 这样的表达,这是一个命名空间



https://detail.tmall.com/item.htm?id=40113778870 或者你试试这个页面的源代码,ends=  之后的那串数字


:在xpath输入框中输入 //button ,点击搜索,可以搜到3个button,第三个button含有这个属性

html_search_result.png


抓取网页片段,把这个button采集下来是可以的,想具体采集detail:params这个属性不行,因为detail是一种特殊的名字空间,GooSeeker不支持。

html_search_dw.png


: 可以整个弄下来了

html_search_dw_result.png

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-10-8 19:07

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 如何采集微博博主主页并生成共现矩阵用于Ge
  • Gephi社会网络分析-网络图Force Atlas布局
  • 对共词关系求协方差矩阵后再用Girvan-Newma
  • 社区发现算法Girvan-Newman(GN)是否能应用
  • 使用GooSeeker分词和Gephi进行中文文本分析

热门用户

GMT+8, 2023-9-28 00:20