主题名:更新详情
更新项中更新者的抓取重复,如何定位xpath才能使抓取的内容不重复呢,我发现网页中相同的xpath有两个,所以本来应该抓取到8个独立的更新者,变成16个重复两次的更新者
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-12-11 19:54

沙发
Fuller 管理员 发表于 2018-12-11 11:54:58 | 只看该作者
自定义xpath,如果是在样例复制中,不能用//开头,这样所有样例都采集成一样的了。而是应该相对于整理箱的容器节点的位置开始写xpath
举报 使用道具
板凳
DuoRuaiMi 高级会员 发表于 2018-12-11 15:18:49 | 只看该作者
如何相对容器节点的位置写xpath呢
举报 使用道具
地板
Fuller 管理员 发表于 2018-12-11 19:54:54 | 只看该作者
DuoRuaiMi 发表于 2018-12-11 15:18
如何相对容器节点的位置写xpath呢

不会抓重复,自动生成的采集规则会含有1个、2个或者3个xpath,为了适应多种情况,不影响抓取。直接做内容映射和定位标志映射就行了,不用自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的
  • 下载支持win7的集搜客网络爬虫软件
  • 遇到“无法识别的应用”告警怎么办?

热门用户

GMT+8, 2024-9-8 10:18