采集美国亚马逊商品的图片,例如  https://www.amazon.com/Intex-Krystal-Cartridge-Filter-110-120V/dp/B005QIYL7E/ref=sr_1_4?ie=UTF8&qid=1465866929&sr=8-4&keywords=pool+pump#immersive-view_1465875175218
直接映射左侧的图片采集的是小图 我想要大图

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-8-19 15:55

沙发
HJLing 版主 发表于 2016-8-19 15:55:51 | 只看该作者
本帖最后由 HJLing 于 2016-8-19 16:00 编辑

可以比较大图和小图网址的区别
如第一张图 html里的网址是https://images-na.ssl-images-amazon.com/images/I/41u7kGtFU-L._SS40_.jpg
对应的大图网址是https://images-na.ssl-images-amazon.com/images/I/41u7kGtFU-L.jpg

那在做内容映射时可以自定义xpath去掉“_SS40_”这部分 具体可用concat和substring-before函数
函数使用方法可参考http://www.gooseeker.com/doc/thread-1852-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 21:28