GooSeeker集搜客网络爬虫,简单高效的网页采集器

产品优势

可视化免编程

web如同一个大型的大数据库,其中包含各种各样有价值的信息,当您需要把某些特定信息采集下来,却往往可能面临这样的困境:

  • 没有系统学过Python、Ruby、PHP、Perl、Javascript、java这些编程语言,通过写代码实现数据采集难度太大。
  • 网络爬虫、网页抓取软件虽然很多,但学习难度大,初学者难以上手。

集搜客GooSeeker与“技术小白”共同成长。秉承此宗旨,集搜客GooSeeker抓取软件操作简单,完全可视化操作,无需编程基础,熟悉电脑操作即可轻松掌握:

  • 当定义采集规则时,用鼠标点选的方式,告知集搜客软件哪些是要抓取的内容,系统会即刻自动生成抓取规则,网络爬虫的工作流程序会根据网页特征自动适配,连拖曳和编辑采集流操作都是多余的;
  • 当程序进行采集时,集搜客高仿真模拟真人操作,可以实现自动登录、输入查询条件、点击链接、点击按钮等,还能自动移动鼠标,自动改变焦点,避过机器人判断程序;

整个采集过程所见即所得,遍历的链接信息、抓取结果信息、错误信息等都会及时地反映在软件界面中。让您整个操作清晰明了,带着轻松的心情完成自己的任务。

模板资源套用

集搜客GooSeeker的模板资源套用特性,让您轻松快捷地获得数据。

在集搜客资源库中,分门别类存放着抓取规则,既可通过关键词也可通过目标网页网址搜索到可用的抓取规则。在抓取规则的详情页面,您可以仔细考察一个规则的抓取结果是否满足您的需要,如果满足,只需点击“下载”按钮,即可在会员中心一键启动集搜客网络爬虫,抓取到你想要的数据。比如:

  • 电商网站上价格、评论的抓取规则
  • B2B网站上的联系人、联系电话的抓取规则
  • 微博上的消息、话题、兴趣、活动等网页内容的抓取规则s

省却自己定义抓取规则的麻烦,像直接套用网页模板一样使用发布出来的规则。对于初学者或者业务目标导向的用户,模板资源套用是一条捷径。

通用网络爬虫

集搜客GooSeeker网络爬虫与其它网络爬虫相比,在易用性方面已经远远胜出,加上 一键启动网络爬虫这个独特性功能和整个[资源共享平台]的支撑,已经大大降低了对用户的技术基础条件的要求。然而,网页抓取毕竟是一个技术工作,需要适当掌握HTML等基础知识。也就是说需要花费一些时间学习这个软件的使用方法。既然已经有所投入(即便是时间上的),那么网络爬虫的通用性高低显得十分重要。

集搜客网络爬虫历经8年行业历练,采用功能强大的火狐浏览器内核,所见即所得。很多动态内容并不在HTML文档中出现,而是动态加载,都不影响精确抓取他们,而且不用网络嗅探器从底层分析网络通信消息,与抓取静态网页一样可视化定义抓取规则。再加上开发者接口,能够模拟十分复杂的鼠标和键盘动作,一边动作一边抓取。

抓取范围可以归纳成如下几类:

  • 各种网站类型:新闻、论坛、电商、社交网站、行业资讯、金融网站、企业门户、政府网站等各种网站都可抓取;
  • 各种网页类型:服务器侧动态页面、浏览器侧动态页面(AJAX内容)、静态页面都可抓取,甚至可以抓取没有终点的瀑布流页面、web qq的会话过程等。集搜客爬虫在默认状态下就可抓取AJAX/Javascript动态页面、服务器动态网页等动态页面,无需其他设置;甚至还可以自动滚屏抓取动态加载的内容。
  • 与PC网站一样,手机网站均可抓取: 爬虫可模拟移动端agent;
  • 所有语言文字:不用特殊设置,自动支持所有语言编码,国际语言一视同仁;

可见,使用集搜客网络爬虫,整个互联网成为你的数据库!

会员互助抓取

这是爬虫群并行抓取的一种特殊情形,利用这个功能,您可以低成本快速汇集海量数据。场景描述如下:

  • 当你要大批量快速或者频繁地抓取数据时,从数据量方面考察,需要多台电脑,您自己的电脑不够用
  • 时间紧张,从而采集活动密度很高,比如,一秒钟内从微博上采集很多条消息,只用您自己的电脑,很容易被目标网站封锁
  • 目标网站对采集量有严格限制,比如,抓取机票价格
  • 需要登录以后才能抓取,您需要大量账号同时登录。

那么,您可以创建一个工作组,并邀请网友加入,为了得到更多会员的响应,您可以发“红包”,接受任务的社友就会用他的的电脑帮你分担采集数据。 在社区中别人会帮你采集数据,当然你也可以帮助社友抓取数据,赚取更多的积分,后面有任务时再把积分悬赏发给社友。

使用过程中要注意:

  • 发布:可在社区圈中发布,发布时选择悬赏类型、悬赏积分数、时间限制,悬赏发布后不可删除、编辑。
  • 回复:指对悬赏任务进行回复、解答帮助

不限深度不限广度

从网站上采集数据,尤其采集大型网站时,被采集的数据往往位于网站的不同层级的网页上,大大增加了网络爬虫采集数据的难度。百度或者google这样的综合网络爬虫,能够自动管理爬行的深度和广度。我们这里讨论的是聚焦网络爬虫,希望能够以尽量低的成本获得数据,而且希望只获取需要的网页内容。所谓聚焦,主要包含两方面:

  • 所抓取的网页(无论深度还是广度)都是预先规划好的,不像综合网络爬虫那样自动去发现向深度和广度发展的新线索。可见,在受控范围内爬行必然会降低成本。
  • 从网页上抓取的内容也是预先定义好的,这就是所谓的抓取规则。不像综合网络爬虫那样把整个网页文本内容都抓下来。可见,精确抓取可用于数据挖掘和情报分析,因为噪音已被精确地过滤掉了。

集搜客GooSeeker就是这样的聚焦网络爬虫,但是跟其他市面上的采集器不同:

  • 集搜客对网站深度和广度不设限,任由您规划。集搜客要做纯粹的大数据能力开放平台,不会用收费版本方式把这个能力藏起来。
  • 集搜客对采集数量不设限,不会根据时间或者根据网页数量扣取积分或者费用,您把整个互联网下载下来都行。

什么是网站深度和广度

在网站的信息架构中,有一种组织结构叫做树形结构:网站首页视为链接层级中第一级,与其有从属关系的页面视为链接层级中的第二级,一般称其为二级页面。通过二级页面又可以继续得到第三级页面,依此类推可以得到一个完整的树形链接结构。这样一个完整的链接结构,如图1所示。

在整个树形结构中,链接的层数被称为网页链接的【深度】(depth)。而在树形结构里,每层页面包含的页面总数被称为网页链接的【广度】(breadth)[1]。因此,图1中树形结构深度3,树形结构第三层的广度为5.

图1:网页深度和广度

抓取指数图表

进入大数据时代,互联网不再局限于发布文字内容和提供关键词搜索。越来越多的数据经过统计、分析、挖掘,并用可视化图表展示出来,比如,

  • 百度指数
  • 百度司南
  • 淘宝指数
  • 如果您运营一个网站,一般会采用某个网站分析(Web Analytics)工具,通常在这个工具上看到的是用图表展示的经营指标
  • 如果您经营一个网店,比如,淘宝店铺,一般会用电商平台提供的经营工具和营销工具等,也会看到很多图表内容。

还有众多垂直领域的指数图表网站,他们对数据进行深度挖掘加工以后展示出来。那么从网页上抓取数据不再局限于文本内容,如果能够直接从图表上抓取数字将有更大价值,原因如下:

  • 对于网络资讯,图表显示了文章最核心的结论信息,如果放弃图表信息,就会损失掉这种重要信息点;
  • 对于经营分析工具,虽然可以在线看图表,如果您经营多个店铺想看综合经营指标,或者您想将重要的经营数据存入自己的数据中心,那么就得想办法把需要的数据抓取下来。

集搜客网络爬虫具有强大的图表数据抓取能力,而且提供一个开发者扩展接口,允许技术基础高的用户用Javascript自定义更高级的网络爬虫动作,比如

  • 驱动鼠标在图表上移动,抓取悬停后显示的数据
  • 模拟人的连续的鼠标点击动作
  • 连续地输入查询条件

总之,集搜客GooSeeker网络爬虫不仅能抓取文本数据、图片、表格,还能模拟鼠标动作,抓取在指数图表上悬浮显示的数据,无论是新闻资讯图表、电商网站上的产品介绍图片、电商经营分析数据还是指数走势图,只要使用集搜客软件就能抓取到完整的图表信息,让整个互联网成为您的数据资源库。

本地化存储保护隐私

在互联网时代,用户的隐私安全越来越受到人们重视,而集搜客GooSeeker的本地化存储机制,能充分保护用户隐私安全。体现在多方面:

  • 集搜客把所有采集结果数据直接存储在用户个人电脑上(如图1所示),便于用户对采集结果数据做各种处理。
  • 如果被采集的目标网站需要登录,用户可以先行用火狐登录目标网站在运行集搜客网络爬虫,个人隐私由火狐的SecurityManager管理,任何程序无法获知账号和密码,充分保证用户的个人隐私的安全。
  • 集搜客把采集任务放在用户个人电脑上运行,用户的采集数据行为别人是看不到的,所以,无论结果还是过程都得到了充分保护。同时本地运行采集任务也保证了高速、稳定和可靠。

相反,如图2所示,其他云采集方案要求用户必须把账号和密码先存储在大家都共享的云数据库,让云端的网络爬虫自动登录后执行采集,大大增加用户账户泄露的可能性,同时,云采集数据必需经过云服务器再到用户个人电脑,增加用户采集行为和结果数据被暴露的可能。

图2:常见云采集模式

自动登录验证码识别

在采集网站数据的时候,需要输入验证码的情形很多

  • 登录时需要输入验证码
  • 采集过程中在不确定的时间要求输入验证码
  • 翻页采集微博消息,翻页数量达到一定数字后,出现验证码
  • 采集电商评论或者成交记录数据时,翻页数量达到一定数量后,出现验证码
  • 采集机票信息更容易出现验证码

通常验证码是为了阻止自动化程序过于频繁访问一个网站,所以,出现的验证码可能会很难辨认,连人眼辨认都很困难,自动程序识别验证码就更困难了。

在数据采集过程中,如果不能及时输入验证码,或者输入了错误的验证码,就会致使网页无法显示,数据抓取也会中断,这也加大了自动化持续采集数据的难度。集搜客GooSeeker网络爬虫从多个方面应对验证码:

  • 可以设置爬行速度,不要过于频繁访问某个网站;
  • 具有自动登录功能,只需要设置相关参数,就可以控制集搜客网络爬虫定期自动登录相应的账号;
  • 定期切换登录账号,可以有效地减少账号封锁的风险;
  • 采用集搜客特有的 集搜功能、会员互助抓取能力和爬虫群并行抓取,做到采集流量分散,甚至可以定期更换IP地址和清空cookie;

一旦遇到验证码、或者在自动登录时必须输入验证码的情形,集搜客GooSeeker网络爬虫与互联网打码平台对接,实时完成验证码输入。因为打码平台聚合了海量的打码人群,既能满足实时性要求,又能达到自动识别无法实现的精度。有效防止数据抓取中断,无需人工看管。

定时自启动采集

集搜客GooSeeker网页抓取软件可以设置定时自动采集,完全无需人工干预,自动采集最新数据,自动实现持续增量数据采集。比如

  • 持续抓取论坛上的新发帖子;
  • 持续抓取微博、twitter或者其它社交网站用户讨论。
  • 持续跟踪在线商城的商品价格、用户评论、成交记录;
  • 在一个产品发布会前后,持续跟踪新闻的跟评,研究营销效果、用户对广告的态度、用户对品牌的态度
  • 舆情监测需要实时自动抓取最新消息,才能掌握群众思想动态,做出正确舆论引导,提供分析依据。
  • 商品比价需按照计划自动抓取商品价格,做出比较分析。

上图是手机消费者洞察系统中的一个截图,为了研究消费者品牌认知和态度,需要从互联网上采集所有用户评论信息,而且每天定时自动启动网络爬虫运行多次,把最新内容增量采集下来。

爬虫群并行抓取

想要A网站、B网站、C网站……等等多个网站一起采集怎么办?

  • 集搜客(GooSeeker)可以让您在一台机器上同时运行多个网络爬虫任务,并行抓取;
  • 也可以让您在多台电脑上并行运行多个任务,即可以抓取相同网站,也可以抓取不同网站。

多个任务,快速采集,高效作业,让您的工作变得轻松愉快。

大数据时代,就是海量信息时代,我们有时候需要的数据量非常多,然而受到个人电脑的性能和网速的限制,数据获取者常常在数据获取方面耗费大量的时间和精力。所以当您的采集任务过于繁重时,您可以借助您的小伙伴的电脑,让多台电脑同时为您的采集任务服务,如果您一时没办法找到足够的帮助资源,可以来我们的社区,向其他小伙伴寻求帮助;集搜客的并行抓取功能,一方面可以帮助个人解决效率低下的问题,另一方面也促进社区闲散资源的整合利用;所以请加入我们的集搜客社区,快速寻求支援,既可以将自己的闲散资源进行有效的商业转化,也是增进收入的另一种选择。

一台机器多个任务爬取多台机器多个任务爬取

一键“集搜”启动多爬虫抓取数据

对于百万、千万甚至更大的的网页抓取量,可选择 分布式采集的方式,把采集任务分配到多台电脑上执行,这需要在集搜客会员中心创建工作组,启动会员互助抓取。但如果抓取量不那么大,或者即便启动多机并行抓取,也希望在一台计算机上并行运行多个爬虫程序,从而充分利用计算机的能力,这就可以用到集搜客新增的“集搜”功能。

“集搜”功能能够支持同一台电脑手工启动并行运行多个爬虫窗口,无需编程,只需在DS打数机的操作界面的 抓取规则列表上点击“集搜”按钮,就能为该规则启动一个爬虫窗口。如果列表一共罗列了20个抓取规则,则可以同时运行20个爬虫窗口。

集搜客网络爬虫还可以 自动启动定时抓取任务,同样也可以启动多个并行抓取窗口,达到相同的目的。但是,集搜功能是一键点击手工启动的,免除编写自启动指令文件,更加便捷。

相对于其它网页抓取软件提供的云采集服务,虽然云采集号称并行利用云中的众多服务器,理论上能够达到同样的目的,但是在云中运行的任务无法实时掌控他们的运行状态,假设需要实时比价或者负面口碑或者危机跟踪,时间过去了才发现没有抓全,再补救就来不及了。另外,云资源需要排队等待,时间不可控,无法用于时效性要求高的场合,当然,云资源付费使用也是不得不面对的问题。

手机网站数据抓取

爬虫不仅可以抓取PC网站上的数据,还可以抓取手机网站上的数据。移动互联网强势崛起后,人们通过手机访问互联网的频率越来越高,同一个目标网站,移动端和PC端显示的内容是不一样的,有区别的场景举例如下:

  • 有些网站采用相同网址,但是用PC访问和用手机访问看到的内容会不一样
  • 有些电商网站的商品的价格移动端比PC端低,要监测产品的价格必须同时监测移动端的价格。同样,手机上看到的促销活动和货架货品内容都可能不一样。

使用GooSeeker采集手机网站数据和采用PC网站数据同样简单, 可视化定义抓取规则的过程完全一样。

为了告知目标网站目前使用手机端(模拟的),需要设置agent类型,从而网络爬虫使用指定类型的agent访问网站,使PC端看到移动端的网页内容。这样就能用同一个集搜客网页抓取程序获得手机站内容。

(请注意:这个功能并不涉及手机APP的内容抓取,抓取的内容仍然来自于网页,是适合手机屏幕大小网页。)

V8.9 版权所有 © 2007-2016 GooSeeker 深圳市天据电子商务有限公司
粤ICP备11065265号-2 粤公网安备 44030502000239号