百度图片搜索出来的网址上如何抓图,例如下面的网址
http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%D0%A1%B9%B7&fr=ala&ori_query=%E5%B0%8F%E7%8B%97&ala=0&alatpl=sp&pos=0
QQ截图20161222100035.png

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-12-4 13:30

ym 版主 发表于 2016-12-22 10:05:07 | 显示全部楼层
本帖最后由 ym 于 2016-12-22 10:10 编辑

操作参考教程《采集图片网址并下载图片》,只要把图片网址抓下来并且勾上"下载图片"的设置,爬虫采集时就会自动下载图片了
举报 使用道具
郭小凯gxk 初级会员 发表于 2016-12-22 10:10:32 | 显示全部楼层
有针对百度图片下载的教程吗
举报 使用道具
ym 版主 发表于 2016-12-22 10:10:40 | 显示全部楼层
采集方法是通用的,掌握这个,就可以去把其他网页的图片下载下来
举报 使用道具
郭小凯gxk 初级会员 发表于 2016-12-22 10:54:11 | 显示全部楼层
好的,谢谢
举报 使用道具
hungboy 新手上路 发表于 2017-12-4 12:27:45 | 显示全部楼层
本帖最后由 hungboy 于 2017-12-4 12:29 编辑

百度的图片与普通网站的图片不同,是转换成了base64位的,无法用普通方法抓取,如下,求指教!
百度的图片我抓到的网址是下面这样:
  1. http://img2.imgtn.bdimg.com/it/u=4014691150,3646257854&fm=27&gp=0.jpg
复制代码

直接用浏览器访问是不成功的,提示页面未找到,我分析了一下,图片实际是用ajax转换成base64存在src里面:
  1. src="data:image/jpeg;base64,/9j/4AAQSkZJRgA
复制代码

于是我尝试使用下级线索,爬详情页面,但是详情页面的规则测试结果中的网址是不对的,与实际结果不同,其格式也与浏览器里面分析出来的不同,测试结果如下:
  1. <p class="p2"><span class="s1"><百度图片详情></span></p>
  2. <p class="p2"><span class="s1"><span class="Apple-converted-space">    </span><item></span></p>
  3. <p class="p2"><span class="s1"><span class="Apple-converted-space">        </span><图片网址>https://timgsa.baidu.com/timg?image&amp;quality=80&amp;size=b9999_10000&amp;sec=1512357457508&amp;di=e3ca5c62d1bb8c35bc435fab9a018a60&amp;imgtype=0&amp;src=http%3A%2F%2Fcdn.feeyo.com%2Fpic%2F20150206%2F201502061243171.jpg</图片网址></span></p>
  4. <p class="p2"><span class="s1"><span class="Apple-converted-space">    </span></item></span></p>
  5. <p class="p2"><span class="s1"></百度图片详情></span></p>
复制代码

浏览器分析的网址:
  1. src="http://cdn.feeyo.com/pic/20150206/201502061243171.jpg"<span class="Apple-converted-space"> </span>
复制代码


举报 使用道具
Fuller 管理员 发表于 2017-12-4 13:30:34 | 显示全部楼层
hungboy 发表于 2017-12-4 12:27
百度的图片与普通网站的图片不同,是转换成了base64位的,无法用普通方法抓取,如下,求指教!
百度的图片我 ...

像楼上说的,勾上“下载图片”。教程在这里:《采集图片网址并下载图片
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:33