重庆市公共资源交易平台-列表页-招标信息-S2Y 在获取下一级网址时出现问题 如何利用xpath 将 opendetailjyxx('1041428705916006400','014005001')  以及 发布日期字段
2021-11-30
拼接为https://www.cqggzy.com/xxhz/014005/014005001/20211130/1041428705916006400.html 这样形势的url

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-11-30 14:37

沙发
wangyong 版主 发表于 2021-11-30 14:14:16 | 只看该作者
  1. concat('https://www.cqggzy.com/jumpnew.html?infoid=',substring-before(substring-after(.//*[@class='l']/@onclick,"opendetailjyxx('"),"','"),'&categorynum=',substring-before(substring-after(.//*[@class='l']/@onclick,"','"),"')"))
复制代码



这个xpath
举报 使用道具
板凳
gz51837844 管理员 发表于 2021-11-30 14:37:43 | 只看该作者
除了使用xpath函数进行字符串的截取和拼接, 还可以使用如下方法:
1. 社区版用户(包括旗舰版,专业版,vip版,免费版),对于复杂的字符串的截取与拼接,可以导出后在excel里做。如果是拼接网址,拼接后的网址结果可以添加到某个任务,供爬虫去爬取。添加网址的操作参考教程:如何管理网络爬虫的线索 - 资讯 - 集搜客GooSeeker网络爬虫
2. 对于企业版用户,爬虫服务器软件和数据库都是在企业自己的服务器上,可以很方便的创建清洗过程,来实现对复杂字符串进行截取、拼接后自动生成和添加网址, 也可以自动对数据进行去重和多级数据的关联与合并。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-27 00:48