根据手册和各种资料,网页抓取/数据抽取/信息提取软件工具包MetaSeeker有很多独特的特性,但从信息提取特性方面讲,能力很强大,大大提高数据抽取的工作效率,能够迅速的建立大量目标网站的提取规则。但是,我们用了这么久,使用到的功能主要集中在数据抽取,我们想了解一下,为什么为一个信息提取工具设计这么复杂的一个SAAS框架?
根据手册和各种资料,网页抓取/数据抽取/信息提取软件工具包MetaSeeker有很多独特的特性,但从信息提取特性方面讲,能力很强大,大大提高数据抽取的工作效率,能够迅速的建立大量目标网站的提取规则。但是,我们用了这么久,使用到的功能主要集中在数据抽取,我们想了解一下,为什么为一个信息提取工具设计这么复杂的一个SAAS框架?
回顾MetaSeeker的设计思路
很多用户和关心MetaSeeker的朋友问过这个问题,我在《FreeFormat技术的社区性/社会性》一文也做过详细的阐述,可能用了太多正规的词语反而难于理解了,在此,我尝试用更直白的语言解释一下这种在线式架构能够给用户带来什么实惠。
我们先粗略看一下普通的数据提取工具主要做什么,很简单,就是把目标页面抓取下来,把里面的需要的内容准确且快速的抽取出来即可。我们看到很多用php, rail, python, java, c#变成语言实现的页面数据抽取小程序,几个语句即可完成。对比看网页抓取/数据抽取/信息提取软件工具包MetaSeeker,客户端工具MetaStudio和DataScraper和SliceSearch编码量超过5万行,用户还没有看到服务器MetaCamp和DataStore的代码量,而且采用了一种在线式架构,像一个免费的SAAS服务,确实很复杂。在此我们在重述功能和性能发面的有点,我们只讲用户应该怎样有效利用这种在线架构。
当一个用户要为某个网站页面定义信息提取规则时,应该利用MetaSeeker的查询功能先看看是否有其他人已经为相同页面定义了需要的信息结构,如果是,就可以避免重复劳动,只需要将别人定义的语义结构加载到MetaStudio的工作台中,看一下是否完全符合自己的需要,如果是,让MetaStudio自动为自己生成一份信息提取指令即可,如果不完全满足需要,可以在别人的劳动的基础上进行修改和补充,大大节约工作时间。