GooSeeker相关功能已经有很多文章介绍集搜客软件,给人的印象是一个典型的网络爬虫,爬虫把当前网页上的内容采集下来,同时把网页上的网址也记录下来。但是,这个爬虫通常不会马上去点这个链接,而是在另外的时间,或者交给另外的爬虫顺着新发现的网址去采集进一步的内容。 似乎现有版本直接做动作的情形很少,比如,翻页连贯抓取是一种做动作的情形,模拟点击是对连续翻页的引申,但是他们特征一致:在当前网页上只动作一次。 从集搜客GooSeeker V5.3.0版本开始,逐步增加多种动作连续执行的能力。也就是说,进入一个网页以后,不但把内容和新网址抓取下来,而且会在当前网页上模拟人做一些鼠标和键盘行为,导致网页内容改变,从而把改变后的内容采集下来。 连续点击相关概念我们将澄清几个概念:
什么是连续?
如上图,在新浪微博上,想把所有对“登山”有兴趣的人的信息采集下来,鼠标移动到每个头像上,悬浮一会就会显示一个弹出窗体。在一个一个头像上做悬浮动作,这就称为“连续”动作,也就是对同一样的动作重复多次。
又如淘宝指数页面上的图表,鼠标悬浮在上面以后就会有数字显示,那么需要连续地移动鼠标。 什么是多层?为了查找内容,往往要输入查询条件,而且条件不止一个,要组合在一起。所谓多层,就是多种条件组合在一起,一个条件套着一个条件,从而形成一个层次。我们尽量避免使用“嵌套”这样的技术词汇。下面看两个例子。
网友把小米手机戏称为“粗粮手机”,如果要研究微博上的舆情形式,可以利用高级搜索,输入多种搜索条件,更精准地查找微博消息。 上图是淘宝网一个小米4的商品截图,你想知道确切的价格,必须选择多个产品属性,先后选择:机身颜色-〉套餐类型-〉机身内容-〉版本类型。这个点击选择过程形成了一个层次。 动作包括那些?请注意,下面罗列的连续动作不是一次性发布,而是从V5.3.0开始,分阶段发布出来。
为什么不用“循环”这个概念?循环一词极具技术特色,程序员很熟悉循环处理,但是,集搜客GooSeeker软件要广为数据分析和研究人员所接受,必须用最直观浅显的界面,让用户最容易上手。把技术细节封装起来。如果需要手工编排循环过程,那只有程序员才能玩的起。 集搜客与其他网页抓取软件不一样,集搜客不是一个封闭的黑盒子,企业版用户能充分体验到GooSeeker的开放性,而程序员用户仍然能从在线版身上找到探索的乐趣,开发者工具-〉自定义爬虫循环其实早已发布,可以编写Javascript代码直接控制GooSeeker软件中的对象,这个功能的详细使用方法将在连续动作功能发布完以后予以发布。 |