我想抓取指定的“”Contact Person:“”和“”Position:“”后面的“Simon Lee”和“”Marketing Manager“”,因为网页结构不一样,想问一下Xpath应该怎么写
[size=0.9375em]Contact Person:
[size=0.9375em]Simon Lee
[size=0.9375em]Position:
[size=0.9375em]Marketing Manager




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-1-26 14:04

沙发
数据集 高级会员 发表于 2018-1-26 11:24:37 | 只看该作者
本帖最后由 数据集 于 2018-1-26 11:26 编辑

自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块节点,类似这样//*[contains(.//text(),'Contact Person:')],再定位你要抓取的内容。具体网页结构在具体修改,详情可参考《xpath常用函数》
举报 使用道具
板凳
qq123456654321 初级会员 发表于 2018-1-26 13:44:55 | 只看该作者
数据集 发表于 2018-1-26 11:24
自定义xpath,用contains函数去定位到包含”Contact Person:“”和“”Position:“的这两个text()的大区块 ...

请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信息,我想要选取“Contact person:”后的内容,我应该是怎么修改网页偏好class的信息运用在contains那里?
谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
数据集 高级会员 发表于 2018-1-26 14:04:05 | 只看该作者
本帖最后由 数据集 于 2018-1-26 14:06 编辑
qq123456654321 发表于 2018-1-26 13:44
请问我的contains应该怎么写,是写在高级设置中的自定义path的文本和专用定位吗?那我怎么去比对我要的信 ...

示例已经给出来了,具体怎么写要根据网页结构写,自己可以参考着写,在高级设置-自定义xpath中选择文本内容,在抓取内容表达式中填上xpath。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 00:45