3 18436

什么是飞掠模式网络爬虫

Fuller 于 2016-8-5 19:32 发表 [复制链接]
飞掠模式2.jpg

集搜客GooSeeker网络爬虫V7.0.0版本正式发布,最大的产品功能是飞掠模式。

1,飞掠模式要解决的问题

首先要明确一点:集搜客网络爬虫新增功能都是解决动态内容采集问题的。如果一个超链接有独立的网址,那么既不用连续动作,也不用飞掠模式,像google爬虫一样层级采集就行了。

那么我们看一下这种情形:每在网页上做个动作,就弹出一个新的窗口,显示新的内容,而这个窗口的URL网址永远是同一个。如果用抓包工具看,可能是发送了一个post消息。所以,我们需要一个功能,能够跟定这些弹出窗口。这就是飞掠模式的来由。

也有朋友会说:我都把post消息抓下来了,用python等模拟post发送消息不就行了。没错,这样可以做到,但是实际操作一下就会发现多么费时费力。很多要登录的网站,post消息带上去的参数很多,包括认证信息、会话信息、cookie等等,很多是很快就失效的,你得一遍遍尝试和调整。那么,飞掠模式就像个机器人,这些繁琐的事情都自动帮你做了。


2,飞掠模式的界面

飞掠模式给多个软件部件带来了变化,直接可体验到的是软件界面部分。请看下图:

飞掠截图.png

这是打开飞掠模式的界面,请注意,飞掠模式功能是在GS浏览器上实现的,集搜客网络爬虫的火狐插件版不支持飞掠模式。

这个界面的功能很像MS谋数台,最大的区别是把DOM树窗口放在下面了。通过点击工具条上飞掠模式按钮,可以打开或者关闭飞掠模式(飞掠模式是收费功能)。

可见,浏览器变成的核心,使网页内容的可视化范围更大。

3,飞掠模式的附加价值:可以同时给多个网页做抓取规则

因为飞掠模式是附加在GS浏览器窗口上的,所以每个窗口都有工作台,使用MS谋数台的用户经常提出:能否同时运行多个MS谋数台?MS谋数台窗口只能运行一个,但是飞掠模式就没有这个限制。打开多个窗口,多级规则可以互相参照着进行定义

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-8-19 14:21

Fuller 管理员 发表于 2016-8-9 16:14:33 | 显示全部楼层
定义规则新窗口.PNG


应大家的强烈要求,GS浏览器上飞掠式定义抓取规则的功能免费开放了,虽然,DS打数机上不能启动飞掠抓取,但是,可以在GS浏览器上享受飞掠式标注和定义规则。可以为多级网页同时定义规则,对照着设计爬虫路线。


总之,飞掠模式分成两块:

1)飞掠标注:定义采集规则

2)飞掠抓取:爬虫采数据


举报 使用道具
tanyaohua123 中级会员 发表于 2016-8-19 12:02:46 | 显示全部楼层
在gs浏览器不能打开飞掠模式,会弹出
“请在会员中心检查飞掠模式是否已开通
或者是否已过期”
但是在会员中心没找到开通飞掠模式的地方怎么办?
举报 使用道具
Fuller 管理员 发表于 2016-8-19 14:21:42 | 显示全部楼层
tanyaohua123 发表于 2016-8-19 12:02
在gs浏览器不能打开飞掠模式,会弹出
“请在会员中心检查飞掠模式是否已开通
或者是否已过期”

这是个收费功能,还没有公开销售,可以直接接洽购买。在线购买界面应该是下周开放
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 23:36