我的规则名称是  amxus_xqy_new1  ,我采集的测试页面可以采集到左侧的图片的网页图片地址信息。

但是加载同类的页面网页图片地址的信息就无法采集获取到,我尝试了多种方式进行定位,都无法成功,请帮我看看是什么地方有问题。
或者 [@class='a-nostyle a-button-list a-vertical a-spacing-top-micro']/li/span/span/span/span/img/@src  这个值。



以下是参考采集的页面,我只要获取这种类型页面的左侧小图片的链接地址即可。但是用这个相类似的页面就无法获取到小图的信息。
https://www.amazon.com/Cuff-Dadd ... s=Cufflinks+letters
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-7-20 18:19

wangyong 版主 发表于 2016-7-20 12:42:27 | 显示全部楼层
对图片的抓取可以用样例复制试试
举报 使用道具
HJLing 版主 发表于 2016-7-20 14:11:40 | 显示全部楼层
你比较一下可以抓取到图片的页面和不能抓取到图片的页面有什么区别 再去修改规则
举报 使用道具
rgbahnh 初级会员 发表于 2016-7-20 14:15:18 | 显示全部楼层
页面都一样啊,就是没看出来有什么不同,不然我就改了
举报 使用道具
wangyong 版主 发表于 2016-7-20 14:43:00 | 显示全部楼层
rgbahnh 发表于 2016-7-20 14:15
页面都一样啊,就是没看出来有什么不同,不然我就改了

就对图片做样例复制就行了
举报 使用道具
rgbahnh 初级会员 发表于 2016-7-20 15:10:33 | 显示全部楼层
不能使用样例复制,因为我需要一行记录呈现一个信息,如果用样例复制的话会产生多行多条图片
举报 使用道具
Fuller 管理员 发表于 2016-7-20 18:19:23 | 显示全部楼层
我看到你自定义的xpath是  //li[@class='a-spacing-small item a-declarative'][position()=1]//@src,其它6个是类似的,只有p2设置成“文本内容”,其它都是“网页片段”,这些倒是都不影响规则的适应性。

我试了第二个网址,虽然几个p4-p6对应不上,这不影响规则可用性,反正也没有设置关键内容,但是前面几个抓取内容对应不上,前面几个映射不上的影响了规则的可用性
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:44