本帖最后由 ym 于 2015-12-17 22:00 编辑

常见问题 > 制作规则—常见问题导航 > 自定义xpath >爬取串数字,自定义XPath该怎么写

:爬取ends后面的那串数字,自定义XPath该怎么写,论坛上的自定义XPath都是基于自动生成的数据规则作修改的,而且这个在字段在页面上看不到,但是在网页源代码里是有的

:用“搜索”这个新功能,先找到这个节点,写个xpath填到输入框中。


比如,//button[contains(@detail:params, '144483')]  这个能不能有效我不太确定,因为这里涉及到 detail: 这样的表达,这是一个命名空间



https://detail.tmall.com/item.htm?id=40113778870 或者你试试这个页面的源代码,ends=  之后的那串数字


:在xpath输入框中输入 //button ,点击搜索,可以搜到3个button,第三个button含有这个属性



抓取网页片段,把这个button采集下来是可以的,想具体采集detail:params这个属性不行,因为detail是一种特殊的名字空间,GooSeeker不支持。



: 可以整个弄下来了


举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-10-8 19:07

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 15:10