2 8671

自定义xpath问题

木木西里数据 于 2021-11-30 09:48 发表 [复制链接]
重庆市公共资源交易平台-列表页-招标信息-S2Y 在获取下一级网址时出现问题 如何利用xpath 将 opendetailjyxx('1041428705916006400','014005001')  以及 发布日期字段
2021-11-30
拼接为https://www.cqggzy.com/xxhz/014005/014005001/20211130/1041428705916006400.html 这样形势的url

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-11-30 14:37

wangyong 版主 发表于 2021-11-30 14:14:16 | 显示全部楼层
  1. concat('https://www.cqggzy.com/jumpnew.html?infoid=',substring-before(substring-after(.//*[@class='l']/@onclick,"opendetailjyxx('"),"','"),'&categorynum=',substring-before(substring-after(.//*[@class='l']/@onclick,"','"),"')"))
复制代码



这个xpath
举报 使用道具
gz51837844 管理员 发表于 2021-11-30 14:37:43 | 显示全部楼层
除了使用xpath函数进行字符串的截取和拼接, 还可以使用如下方法:
1. 社区版用户(包括旗舰版,专业版,vip版,免费版),对于复杂的字符串的截取与拼接,可以导出后在excel里做。如果是拼接网址,拼接后的网址结果可以添加到某个任务,供爬虫去爬取。添加网址的操作参考教程:如何管理网络爬虫的线索 - 资讯 - 集搜客GooSeeker网络爬虫
2. 对于企业版用户,爬虫服务器软件和数据库都是在企业自己的服务器上,可以很方便的创建清洗过程,来实现对复杂字符串进行截取、拼接后自动生成和添加网址, 也可以自动对数据进行去重和多级数据的关联与合并。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:48