像包图网这种图片库网站或者是素材网,集搜客爬虫可以采集上面的图片介绍文字、并且下载图片吗?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2021-2-6 18:29

ym 版主 发表于 2020-4-26 17:52:31 | 显示全部楼层
可以的,集搜客爬虫可以采集网页文本、图片、视频信息,直接把网页信息标注为采集字段,并且抓取图片网址,设置下载图片,集搜客爬虫在采集网页文本信息时就会自动下载图片文件。参考教程《采集图片网址并下载图片——以途牛旅游网为例》
举报 使用道具
Smile爱分享 初级会员 发表于 2020-4-26 17:57:04 | 显示全部楼层
我做了规则,但是要下载的图片不是教程那种直接显示在网页上的,因为包图网上显示的图片是压缩过并且有水印的,而我想要的是点击“免费下载”就自动下载的原图文件,不是网页上显示出来的图片,这种要怎么采集?
QQ截图20200426175525.png

举报 使用道具
ym 版主 发表于 2020-4-26 18:05:54 | 显示全部楼层
在连续动作里设置一个点击动作,爬虫采集时就会自动点击下载按钮了,参考教程《连续动作:自动搜索关键词采集信息—以京东为例》
爬虫浏览器通常会自动保存文件,如果没有自动保存的话,需要点击右上角的设置按钮,在设置弹窗的"Mine"里逐个条目都点一遍,最后保存关闭弹窗,除了个别类型文件不支持外,后面采集文件通常都会自动保存。
QQ截图20200426180304.png
举报 使用道具
Smile爱分享 初级会员 发表于 2020-4-26 18:18:09 | 显示全部楼层
本帖最后由 Smile爱分享 于 2020-4-26 18:30 编辑

不好意思,前面“免费下载”那里说错了,点击后是打开新的页面,付费用户可以点下载直接下载,非付费用户点下载就下载不了,如果我购买了包图网的付费服务,用爬虫点击可以下载吗?
QQ截图20200426181520.png

举报 使用道具
ym 版主 发表于 2020-4-26 18:28:59 | 显示全部楼层
本帖最后由 ym 于 2020-4-26 18:30 编辑

只要你付费开通了包图网的下载权限,就可以下载到图片文件,这是你在目标网站上所注册账号的权限,爬虫本身是没有目标网站的任何权限。
如果想要爬虫帮你自动点击下载文件,需要在爬虫浏览器上访问目标网站并登录好账号,这样爬虫执行点击下载才会自动下载到文件,否则也会触发目标网站的收费提示。
举报 使用道具
Smile爱分享 初级会员 发表于 2020-4-26 18:31:50 | 显示全部楼层
明白了,谢谢。最后问一下,会有反爬吗?
举报 使用道具
Fuller 管理员 发表于 2020-4-26 18:36:24 | 显示全部楼层
Smile爱分享 发表于 2020-4-26 18:31
明白了,谢谢。最后问一下,会有反爬吗?

每个网站的反爬策略都不一样,要运行一段时间观察一下。如果遇到反爬,就调慢爬虫速度,这里介绍了很多方法,可以组合使用:https://www.gooseeker.com/doc/thread-4563-1-1.html
举报 使用道具
ym 版主 发表于 2020-4-26 18:42:00 | 显示全部楼层
这类内容付费型网站,通常都会有反刷监控,不仅是监控普通用户的下载行为和数量,还监控爬虫下载,无论是本人下载还是爬虫下载,只要一定时间内的下载数量达到目标网站的数量警报线,通常都会采取一些制裁措施,比如封号,所以建议不要频繁地大量下载。
举报 使用道具
Smile爱分享 初级会员 发表于 2020-4-26 18:54:33 | 显示全部楼层
ym 发表于 2020-4-26 18:42
这类内容付费型网站,通常都会有反刷监控,不仅是监控普通用户的下载行为和数量,还监控爬虫下载,无论是本 ...

好的,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 17:56