大概是这个意思
div
    p
    h1
    p
    p
    p
我想抓取h1之后所有p节点的内容。

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-3-3 11:33

沙发
xandy 论坛元老 发表于 2017-3-3 10:40:00 | 只看该作者
主题名或样本网址发下
举报 使用道具
板凳
fqzlala 中级会员 发表于 2017-3-3 10:40:41 | 只看该作者
xandy 发表于 2017-3-3 10:40
主题名或样本网址发下

https://www.csis.org/analysis/effect-encryption-lawful-access-communications-and-data
举报 使用道具
地板
fqzlala 中级会员 发表于 2017-3-3 10:41:52 | 只看该作者
xandy 发表于 2017-3-3 10:40
主题名或样本网址发下

用这个吧
https://www.csis.org/analysis/issues-insights-vol-17-no-2-back-basics-conference-report-us-rok-japan-trilateral-strategic
这个p节点多一些

举报 使用道具
5#
ym 版主 发表于 2017-3-3 10:41:59 | 只看该作者
要自定义xpath,你看看这篇《xpath常用函数用法》,自己选择合适的函数来试试吧
举报 使用道具
6#
fqzlala 中级会员 发表于 2017-3-3 10:43:57 | 只看该作者
我其实想取第二个P节点之后的所有的p节点内容,因为第一个是日期,后面才是正文
举报 使用道具
7#
ym 版主 发表于 2017-3-3 10:50:39 | 只看该作者
用substring-after()函数比较合适
举报 使用道具
8#
fqzlala 中级会员 发表于 2017-3-3 10:56:51 | 只看该作者
ym 发表于 2017-3-3 10:50
用substring-after()函数比较合适

好的,谢谢

举报 使用道具
9#
xandy 论坛元老 发表于 2017-3-3 11:33:51 | 只看该作者
fqzlala 发表于 2017-3-3 10:43
我其实想取第二个P节点之后的所有的p节点内容,因为第一个是日期,后面才是正文 ...

用following-sibling函数比较适合,因为正文部分并不是特定文本前或者是特定文本后的内容,如下图所示:
下面这个xpath语句的意思是提取class为“subtitle”的节点后的第二个以上的兄弟P节点,也就是文章的正文部分。
  1. //*[@class='subtitle']/following-sibling::p[position()>1]//text()
复制代码
然后该采集字段高级设置里头要勾选网页片段,而不是勾选文本内容。
更多xpath的语法自己去了解:《自定义xpath

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-23 09:24