目标网址:https://www.aliexpress.com/categ ... anpro_desc&tag=

图片地址是在不同的属性下面的,前6个图片在/img[@src]下面,以后却在/img[@image-src]下面。
使用高级功能里的自定义Xpath,填写/html/body/div[position()=8]/div/div[position()=1]/div/ul[position()=1]/li[position()>=1]/div[position()=2]/div/a/img[@src or @image-src]和div[position()=2]/div/a/img[@src or @image-src]都不能采集到。

怎么解决?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-5-28 08:47

沙发
Fuller 管理员 发表于 2019-5-27 16:03:14 | 只看该作者
这是一种动态技术,你做规则的时候只管采集src中的内容,这种动态网页,滚屏的时候,img中的src就会填上,所以,DS打数机运行的时候,打开自动滚屏,也就是菜单 配置-》滚屏参数 中,把滚屏次数设置成>0的数字就自动滚屏了。滚屏次数可以是2,试试能否滚屏到底。
举报 使用道具
板凳
dashbash 初级会员 发表于 2019-5-27 17:43:09 | 只看该作者
网页是静态加载的,滚动条都没动就能看到图片地址所在的属性标签不一样了。现在要解决的就是在这种情况下要怎么样才能把图片下下来
举报 使用道具
地板
Fuller 管理员 发表于 2019-5-27 21:21:33 | 只看该作者
dashbash 发表于 2019-5-27 17:43
网页是静态加载的,滚动条都没动就能看到图片地址所在的属性标签不一样了。现在要解决的就是在这种情况下要 ...

滚屏以后一定会变成src,否则图片不可能显示
举报 使用道具
5#
dashbash 初级会员 发表于 2019-5-27 21:48:37 | 只看该作者
嗯,确实滚过去就会变成src,但是按照前一条的提示设置滚屏参数,DS打数机能够滚到底,但是后面的图片还是显示不了,还是只能下载到6张图
举报 使用道具
6#
Fuller 管理员 发表于 2019-5-28 08:47:11 | 只看该作者
dashbash 发表于 2019-5-27 21:48
嗯,确实滚过去就会变成src,但是按照前一条的提示设置滚屏参数,DS打数机能够滚到底,但是后面的图片还是 ...

加载这个网页确实有问题,昨天我试验的时候还能加载,今天就不行了,也可能集搜客浏览器的兼容性不够,目前我们正在开发新版本爬虫
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 07:28