常见问题 > 制作规则—常见问题导航 > 自定义xpath > 怎样设置自定义xpath

设置自定义XPath的步骤很简单,难在选择XPath的定位起点,因为这里要求输入相对的XPath路径。

找到定位起点
1)给整理箱的所有抓取内容作内容映射(先不要自定XPath)
2)点击测试按钮,在输出窗口中转到“数据规则”页签
3)找到这个抓取内容的XPath,在抓取规则中,所有的抓取内容的XPath都是相对的,起点要么是./,要么是*。自定义XPath的时候,推荐用./开头,而这个.是哪个节点?就是容器节点。当然直接相对容器节点写html DOM节点名也没有问题
4)自定义XPath的时候也要记住容器节点是哪个,自己写的XPath一定是相对于容器节点的

设置自定义XPath的步骤
1)双击抓取内容,弹出窗口里选择高级设置,再选择自定义xpath


2)选择文本内容和兼做定位,把xpath输入到内容表达式,点击保存,然后测试一下,看看有没有语法错误,没有报错且能看到数据就可以用了。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-10-24 22:44

沙发
shenzhenwan20 初级会员 发表于 2015-10-22 12:23:11 | 只看该作者
学习了
举报 使用道具
板凳
habout632 初级会员 发表于 2015-10-22 19:15:47 | 只看该作者
请问抓取内容表达式那里应该怎么填,填入什么?
举报 使用道具
地板
ym 版主 发表于 2015-10-23 09:37:37 | 只看该作者
habout632 发表于 2015-10-22 19:15
请问抓取内容表达式那里应该怎么填,填入什么?

要填目标信息的xpath路径,就是要告诉爬虫怎样提取到目标信息,需要先去学习一下xpath的基本知识点
举报 使用道具
5#
habout632 初级会员 发表于 2015-10-23 10:31:39 | 只看该作者
知道了,谢谢
举报 使用道具
6#
Fuller 管理员 发表于 2016-10-24 22:44:34 | 只看该作者
设置自定义XPath最麻烦的一点,也是最值得注意的一点就是:XPath的起点应该相对于容器节点,而不是/html或者//这种从html定点开始的xpath,虽然很多时候,这样的xpath也能抓到数据。

怎样确定起点?这个帖子的沙发和板凳说了一种复杂情况:http://www.gooseeker.com/doc/thread-3846-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 06:48