本帖最后由 ym 于 2015-12-17 22:00 编辑

常见问题 > 制作规则—常见问题导航 > 自定义xpath >爬取串数字,自定义XPath该怎么写

:爬取ends后面的那串数字,自定义XPath该怎么写,论坛上的自定义XPath都是基于自动生成的数据规则作修改的,而且这个在字段在页面上看不到,但是在网页源代码里是有的

:用“搜索”这个新功能,先找到这个节点,写个xpath填到输入框中。


比如,//button[contains(@detail:params, '144483')]  这个能不能有效我不太确定,因为这里涉及到 detail: 这样的表达,这是一个命名空间



https://detail.tmall.com/item.htm?id=40113778870 或者你试试这个页面的源代码,ends=  之后的那串数字


:在xpath输入框中输入 //button ,点击搜索,可以搜到3个button,第三个button含有这个属性



抓取网页片段,把这个button采集下来是可以的,想具体采集detail:params这个属性不行,因为detail是一种特殊的名字空间,GooSeeker不支持。



: 可以整个弄下来了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-10-8 19:07

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-10-22 10:45