快捷导航
3 166

xpath定位问题

DuoRuaiMi 于 2018-12-11 10:17 发表 [复制链接]
主题名:更新详情
更新项中更新者的抓取重复,如何定位xpath才能使抓取的内容不重复呢,我发现网页中相同的xpath有两个,所以本来应该抓取到8个独立的更新者,变成16个重复两次的更新者
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-12-11 19:54

Fuller 管理员 发表于 2018-12-11 11:54:58 | 显示全部楼层
自定义xpath,如果是在样例复制中,不能用//开头,这样所有样例都采集成一样的了。而是应该相对于整理箱的容器节点的位置开始写xpath
举报 使用道具
DuoRuaiMi 中级会员 发表于 2018-12-11 15:18:49 | 显示全部楼层
如何相对容器节点的位置写xpath呢
举报 使用道具
Fuller 管理员 发表于 2018-12-11 19:54:54 | 显示全部楼层
DuoRuaiMi 发表于 2018-12-11 15:18
如何相对容器节点的位置写xpath呢

不会抓重复,自动生成的采集规则会含有1个、2个或者3个xpath,为了适应多种情况,不影响抓取。直接做内容映射和定位标志映射就行了,不用自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 怎样用爬虫爬取亚马逊商品评论?
  • 新版集搜客网络爬虫图片下载功能
  • windows高清屏幕显示模糊的解决方法
  • 修改和找回密码——微信登录集搜客GooSeeke
  • 网络爬虫自动打验证码避免重复打码

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-1-19 10:57