11#
Fuller 管理员 发表于 2016-12-7 16:23:00 | 只看该作者
18873028857 发表于 2016-12-7 16:17
如果可以看到我的yangtian003的话,请你看下我做的yangtian004及yangtian004-1,根本无法抓取下节的图片, ...

yangtian003和004有关系吗?我加载003看到没有到004的路线。你的完整的爬虫路线是什么样子的?这几个规则之间是什么关系?
举报 使用道具
12#
18873028857 初级会员 发表于 2016-12-7 16:25:15 | 只看该作者
scraper 发表于 2016-12-6 18:56
你检查下你的规则, 是否把一些不是图片网址的给抓下来了

如果不是图片网址,但有图片网址的应该能生成文件撒

举报 使用道具
13#
Fuller 管理员 发表于 2016-12-7 16:31:40 | 只看该作者
18873028857 发表于 2016-12-7 16:22
我是做商品的详细图片及描述类

004-1那个,我建议这样做


把所有图片采集下来,不然你不知道每个网页到底有多少个图片,所以,要设置高级设置,勾上网页片段等,都勾上,就能有多少图片就下载多少

举报 使用道具
14#
18873028857 初级会员 发表于 2016-12-7 16:41:23 | 只看该作者
Fuller 发表于 2016-12-7 16:31
004-1那个,我建议这样做

那些网址上PNG地址的图片,用浏览器打开后,能下载保存到电脑上去呢?
举报 使用道具
15#
Fuller 管理员 发表于 2016-12-7 16:44:11 | 只看该作者
18873028857 发表于 2016-12-7 16:41
那些网址上PNG地址的图片,用浏览器打开后,能下载保存到电脑上去呢?

勾上下载图片,能看到的图片基本上都能保存
举报 使用道具
16#
18873028857 初级会员 发表于 2016-12-7 16:47:12 | 只看该作者
Fuller 发表于 2016-12-7 16:44
勾上下载图片,能看到的图片基本上都能保存

打数机说成功了,还是没有图片,也按你说的下载图片那地方打上了勾
举报 使用道具
17#
xandy 论坛元老 发表于 2016-12-7 16:59:22 | 只看该作者

yangtian003这个
我看了样本页面,你是不是要采集右侧包含的8张小图并下载,另外翻页之后的图片都下载下来?


如图所示,这个页面首次下载后,只能在网页标签里面找到该页面上有的8张小图的src,所以如果针对这个包含8张图的框框做采集并下载图片,下载到的就是该页面的8张图,你做一个翻页就解决问题了


举报 使用道具
18#
xandy 论坛元老 发表于 2016-12-7 17:03:35 | 只看该作者
xandy 发表于 2016-12-7 16:59
yangtian003这个
我看了样本页面,你是不是要采集右侧包含的8张小图并下载,另外翻页之后的图片都下载下 ...

不过这样抓的都是小图,抓大图的话采集路线再规划下
举报 使用道具
19#
scraper 论坛元老 发表于 2016-12-7 17:07:23 | 只看该作者
xandy 发表于 2016-12-7 17:03
不过这样抓的都是小图,抓大图的话采集路线再规划下

图片网址带有尺寸参数 如果要采集大图 用xpath把尺寸参数.64x64去掉就可以了

举报 使用道具
20#
Fuller 管理员 发表于 2016-12-7 17:08:06 | 只看该作者
18873028857 发表于 2016-12-7 16:47
打数机说成功了,还是没有图片,也按你说的下载图片那地方打上了勾

存在两个问题:

1,做内容映射的时候,不要只选择一个图片,而是用包含所有图片的那个DIV做内容映射

2,DS打数机的滚屏参数要注意:滚屏速度要负数,比如,-2,就会滚动很慢,滚屏次数可以设置成10。另外再把 超时时长 设置长一点

就能抓到图片了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 15:06