网页中包含很多图片,不想要抓取图片,只想抓取所包含的图片数量,要怎么实现啊?
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2018-5-8 10:26

沙发
Fuller 管理员 发表于 2016-4-27 22:04:08 | 只看该作者
如果把图片下载下来,那么会影响抓取速度,所以,你不要勾选 “下载图片”,但是图片的网址还是要抓的,把所有抓取结果抓下来以后,导入excel,统计有多少图片网址
举报 使用道具
板凳
LQX930107 中级会员 发表于 2016-4-28 16:35:34 | 只看该作者
Fuller 发表于 2016-4-27 22:04
如果把图片下载下来,那么会影响抓取速度,所以,你不要勾选 “下载图片”,但是图片的网址还是要抓的,把 ...

请问抓取图片的教程可以参考哪个?
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-28 16:51:38 | 只看该作者
LQX930107 发表于 2016-4-28 16:35
请问抓取图片的教程可以参考哪个?

参考这个:http://www.gooseeker.com/doc/article-116-1.html
就是勾选“下载图片”就可以了
举报 使用道具
5#
LQX930107 中级会员 发表于 2016-4-29 09:39:00 | 只看该作者
Fuller 发表于 2016-4-28 16:51
参考这个:http://www.gooseeker.com/doc/article-116-1.html
就是勾选“下载图片”就可以了 ...

网页中评论和回复的内容怎么抓取啊?评论数很多,且每条评论都有很多回复,这种抓取规则要怎么定义?
举报 使用道具
6#
Fuller 管理员 发表于 2016-4-29 10:33:56 | 只看该作者
LQX930107 发表于 2016-4-29 09:39
网页中评论和回复的内容怎么抓取啊?评论数很多,且每条评论都有很多回复,这种抓取规则要怎么定义? ...

比如我们这个网站,跟评只显示两层,而163新闻的跟评,可以嵌套无数层。

如果嵌套层数是确定的,做嵌套整理箱,就是大箱子套小箱子,小箱子上也做样例复制规则,就能给小箱子抓取下来多个实例内容

如果嵌套是无数层,就得分别研究了,比较麻烦
举报 使用道具
7#
LQX930107 中级会员 发表于 2016-4-29 20:50:24 | 只看该作者
Fuller 发表于 2016-4-29 10:33
比如我们这个网站,跟评只显示两层,而163新闻的跟评,可以嵌套无数层。

如果嵌套层数是确定的,做嵌套 ...

非常感谢。
举报 使用道具
8#
zsy_uibe 新手上路 发表于 2018-2-27 00:54:01 | 只看该作者
Fuller 发表于 2016-4-27 22:04
如果把图片下载下来,那么会影响抓取速度,所以,你不要勾选 “下载图片”,但是图片的网址还是要抓的,把 ...

我要对多个页面进行统计   所以导入excel统计不现实   请教您有直接在抓取过程中就能统计图片数量的办法吗  谢谢

举报 使用道具
9#
Fuller 管理员 发表于 2018-2-27 09:08:42 | 只看该作者
zsy_uibe 发表于 2018-2-27 00:54
我要对多个页面进行统计   所以导入excel统计不现实   请教您有直接在抓取过程中就能统计图片数量的办法 ...

集搜客是通用爬虫,在抓取过程中进行统计这个需求太特殊了,在公开版里面不会有这样的功能,只能做定制开发,这种功能的定制开发费用比较高,不划算,还是在抓取以后用excel做统计比较合适
举报 使用道具
10#
zsy_uibe 新手上路 发表于 2018-2-28 17:19:11 | 只看该作者
Fuller 发表于 2018-2-27 09:08
集搜客是通用爬虫,在抓取过程中进行统计这个需求太特殊了,在公开版里面不会有这样的功能,只能做定制开 ...

好的,非常感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:01