集搜客GooSeeker网络爬虫V7.0.0版本正式发布,最大的产品功能是飞掠模式。
1,飞掠模式要解决的问题
首先要明确一点:集搜客网络爬虫新增功能都是解决动态内容采集问题的。如果一个超链接有独立的网址,那么既不用连续动作,也不用飞掠模式,像google爬虫一样层级采集就行了。
那么我们看一下这种情形:每在网页上做个动作,就弹出一个新的窗口,显示新的内容,而这个窗口的URL网址永远是同一个。如果用抓包工具看,可能是发送了一个post消息。所以,我们需要一个功能,能够跟定这些弹出窗口。这就是飞掠模式的来由。
也有朋友会说:我都把post消息抓下来了,用python等模拟post发送消息不就行了。没错,这样可以做到,但是实际操作一下就会发现多么费时费力。很多要登录的网站,post消息带上去的参数很多,包括认证信息、会话信息、cookie等等,很多是很快就失效的,你得一遍遍尝试和调整。那么,飞掠模式就像个机器人,这些繁琐的事情都自动帮你做了。
2,飞掠模式的界面
飞掠模式给多个软件部件带来了变化,直接可体验到的是软件界面部分。请看下图:
这是打开飞掠模式的界面,请注意,飞掠模式功能是在GS浏览器上实现的,集搜客网络爬虫的火狐插件版不支持飞掠模式。
这个界面的功能很像MS谋数台,最大的区别是把DOM树窗口放在下面了。通过点击工具条上飞掠模式按钮,可以打开或者关闭飞掠模式(飞掠模式是收费功能)。
可见,浏览器变成的核心,使网页内容的可视化范围更大。
3,飞掠模式的附加价值:可以同时给多个网页做抓取规则
因为飞掠模式是附加在GS浏览器窗口上的,所以每个窗口都有工作台,使用MS谋数台的用户经常提出:能否同时运行多个MS谋数台?MS谋数台窗口只能运行一个,但是飞掠模式就没有这个限制。打开多个窗口,多级规则可以互相参照着进行定义
|
共 3 个关于本帖的回复 最后回复于 2016-8-19 14:21