主题名:更新详情
更新项中更新者的抓取重复,如何定位xpath才能使抓取的内容不重复呢,我发现网页中相同的xpath有两个,所以本来应该抓取到8个独立的更新者,变成16个重复两次的更新者
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-12-11 19:54

沙发
Fuller 管理员 发表于 2018-12-11 11:54:58 | 只看该作者
自定义xpath,如果是在样例复制中,不能用//开头,这样所有样例都采集成一样的了。而是应该相对于整理箱的容器节点的位置开始写xpath
举报 使用道具
板凳
DuoRuaiMi 高级会员 发表于 2018-12-11 15:18:49 | 只看该作者
如何相对容器节点的位置写xpath呢
举报 使用道具
地板
Fuller 管理员 发表于 2018-12-11 19:54:54 | 只看该作者
DuoRuaiMi 发表于 2018-12-11 15:18
如何相对容器节点的位置写xpath呢

不会抓重复,自动生成的采集规则会含有1个、2个或者3个xpath,为了适应多种情况,不影响抓取。直接做内容映射和定位标志映射就行了,不用自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-21 21:26