7 14312

抓取图片地址问题

duan416389 于 2016-2-2 02:33 发表 [复制链接]
图片地址是其他站点的,抓取不到,怎么解决?急急急!!!!
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-2-2 20:27

Fuller 管理员 发表于 2016-2-2 09:40:52 | 显示全部楼层
其它网站是什么意思?

意思是说你有一批图片网址,想把图片成批下载下来吗?
举报 使用道具
Fuller 管理员 发表于 2016-2-2 09:43:25 | 显示全部楼层
Fuller 发表于 2016-2-2 09:40
其它网站是什么意思?

意思是说你有一批图片网址,想把图片成批下载下来吗? ...

可以做一个通用抓取规则,比如,把一个网页上的html body内的图片都下载下来。只需定义一个整理箱,里面创建一个抓取内容,设定高级设置,勾选全部内容,表示把这个body的html标签都抓下来。然后在抓取内容设置项那里选中“下载图片”。

这样一个规则适用于所有网页。规则存了以后,到会员中心的爬虫管理那里,找到这个规则,把你的所有网址导入进去,就会为每个网址生成抓取线索。
举报 使用道具
duan416389 新手上路 发表于 2016-2-2 10:50:15 | 显示全部楼层
Fuller 发表于 2016-2-2 09:43
可以做一个通用抓取规则,比如,把一个网页上的html body内的图片都下载下来。只需定义一个整理箱,里面 ...

我做好规则之后,在工作台里测试是可以看见正确的图片地址的,但是爬数据之后显示的都是noimages.gif这样的地址,我大概查询了一下是不是地址是防盗链的抓不下来啊?怎么可以解决这个问题?
举报 使用道具
Fuller 管理员 发表于 2016-2-2 12:25:38 | 显示全部楼层
duan416389 发表于 2016-2-2 10:50
我做好规则之后,在工作台里测试是可以看见正确的图片地址的,但是爬数据之后显示的都是noimages.gif这样 ...

只要能看到,基本上就能下载下来。

现在的网页为了提高显示速度,在屏幕没有滚到位置的时候,就不会显示图片,你的这个问题应该是没有打开滚屏。

在DS菜单: 配置->滚屏参数 ,在弹出窗口中给两个参数都输入2即可。

你就能看到屏幕会自动往下滚。再看看是否有noimage.gif

如果还有,就把滚屏速度再 变慢,滚屏速度 参数设置成负数,越小越慢
举报 使用道具
duan416389 新手上路 发表于 2016-2-2 15:07:10 | 显示全部楼层
Fuller 发表于 2016-2-2 12:25
只要能看到,基本上就能下载下来。

现在的网页为了提高显示速度,在屏幕没有滚到位置的时候,就不会显示 ...

防盗链的图片地址能抓取吗?
举报 使用道具
Fuller 管理员 发表于 2016-2-2 15:23:33 | 显示全部楼层
防盗链是什么样子?发个网址过来。

GooSeeker不会去管是否有防盗技术,只要火狐浏览器看到的图片就能存下来
举报 使用道具
duan416389 新手上路 发表于 2016-2-2 20:27:46 | 显示全部楼层
Fuller 发表于 2016-2-2 15:23
防盗链是什么样子?发个网址过来。

GooSeeker不会去管是否有防盗技术,只要火狐浏览器看到的图片就能存下 ...

嗯嗯,问题解决了,原来是做规则的时候样本界面没有完全加载完,里面含了一些facebook这些需要翻墙才能打开的网站,挂了代理重新加载了一下就好了,谢谢管理员同志!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 08:22