主题名:更新详情
更新项中更新者的抓取重复,如何定位xpath才能使抓取的内容不重复呢,我发现网页中相同的xpath有两个,所以本来应该抓取到8个独立的更新者,变成16个重复两次的更新者
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-12-11 19:54

沙发
Fuller 管理员 发表于 2018-12-11 11:54:58 | 只看该作者
自定义xpath,如果是在样例复制中,不能用//开头,这样所有样例都采集成一样的了。而是应该相对于整理箱的容器节点的位置开始写xpath
举报 使用道具
板凳
DuoRuaiMi 高级会员 发表于 2018-12-11 15:18:49 | 只看该作者
如何相对容器节点的位置写xpath呢
举报 使用道具
地板
Fuller 管理员 发表于 2018-12-11 19:54:54 | 只看该作者
DuoRuaiMi 发表于 2018-12-11 15:18
如何相对容器节点的位置写xpath呢

不会抓重复,自动生成的采集规则会含有1个、2个或者3个xpath,为了适应多种情况,不影响抓取。直接做内容映射和定位标志映射就行了,不用自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 12:41