规则名:众筹网_蜂蜜2
网址:http://www.zhongchou.com/deal-show/id-706184

我要抓取里面的图片,直接给@src做图片的内容映射,再给列表做定位,是可以正常抓取成功的。
但我想练习下xpath,所以就有了这个问题。试了好久都没有成功,想请教下哪里出问题了。

尝试1:列表定位不变,图片的内容表达式为://*[@class='lazy1 go']/@src,不勾选定位,错误:抓取重复!请问为什么?
尝试2:勾选兼职定位,错误:程序报错。我想是因为@src没有id或class造成的,是吗?
尝试3:勾选专用定位,内容表达式//*[@class='lazy1 go']/@src   定位表达式填【.】,错误:抓取重复!
尝试4:勾选专用定位,内容表达式【.】//*[@class='lazy1 go']/@src   定位表达式填【.】,错误:抓取不到!


举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-6-26 14:50

wangyong 版主 发表于 2017-6-26 09:40:30 | 显示全部楼层
网页上有很多图片都要抓那些图片?
举报 使用道具
lanyunqing 初级会员 发表于 2017-6-26 09:58:38 | 显示全部楼层
class='lazy1 go' 的图片
举报 使用道具
lanyunqing 初级会员 发表于 2017-6-26 09:58:58 | 显示全部楼层
wangyong 发表于 2017-6-26 09:40
网页上有很多图片都要抓那些图片?

class='lazy1 go' 的图片
举报 使用道具
wangyong 版主 发表于 2017-6-26 10:01:03 | 显示全部楼层
xpath:
  1. .//*[@class='lazy1 go']/@src
复制代码


举报 使用道具
wangyong 版主 发表于 2017-6-26 10:10:06 | 显示全部楼层
对整理箱做定位标志映射,选择包含@class=‘lazy1 go’节点的节点
举报 使用道具
lanyunqing 初级会员 发表于 2017-6-26 10:11:37 | 显示全部楼层

尝试1:列表定位不变,图片的内容表达式为://*[@class='lazy1 go']/@src,不勾选定位,错误:抓取重复!请问为什么?
尝试2:勾选兼职定位,错误:程序报错。我想是因为@src没有id或class造成的,是吗?
尝试3:勾选专用定位,内容表达式//*[@class='lazy1 go']/@src   定位表达式填【.】,错误:抓取重复!
尝试4:勾选专用定位,内容表达式【.】//*[@class='lazy1 go']/@src   定位表达式填【.】,错误:抓取不到!

举报 使用道具
lanyunqing 初级会员 发表于 2017-6-26 10:17:36 | 显示全部楼层
wangyong 发表于 2017-6-26 10:10
对整理箱做定位标志映射,选择包含@class=‘lazy1 go’节点的节点

你好,我整理箱的定位标志映射,选择了@class=‘lazy1 go’的上一级节点:@class='newXmxqBox'

但只抓取到一条图片地址,正常来说应该是7张的
举报 使用道具
wangyong 版主 发表于 2017-6-26 10:39:11 | 显示全部楼层
图片的@class不是都一样,如果要根据@class来抓取相同的数据,不是做自定义xpath而是做定位标志映射
举报 使用道具
lanyunqing 初级会员 发表于 2017-6-26 11:49:54 | 显示全部楼层
wangyong 发表于 2017-6-26 10:39
图片的@class不是都一样,如果要根据@class来抓取相同的数据,不是做自定义xpath而是做定位标志映射 ...

就是说自定义xpath不能抓取多个内容,即使class是一样的?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:23