MetaSeeker是深圳市天据电子商务有限公司 下属的GooSeeker(深圳)研发中心 发布的基于云计算架构的高性能网页抓取软件工具包。
下述两种典型组网的区别在于MetaCamp服务器的部署位置,如果描述的信息结构不希望共享给别人,企业可以部署专用的 MetaCamp服务器。
网络爬虫(Crawler)有很多名字,例如,蜘蛛(Spider)或者机器人(Robot)等,毫无疑问,MetaSeeker产品也采用了网络爬虫的理念,DataScraper主要承担了网络爬虫的职责,然而,MetaSeeker工具包并不是普通的网络爬虫。
DataStore服务器是一个部署在Tomcat等Servlet容器中的应用(application),主要有以下功能:
DataScraper是Web页面信息提取(网页抓取/抽取)工具,利用MetaStudio生成的信息提取指令文件,对属于相同语义类别的页面信息进行连续提取,生成XML格式的信息提取结果文件,并将信息提取结果文件存储在DataStore服务器中。
MetaStudio是描述Web页面信息结构的工具,协助用户对目标网页的信息结构进行建模,为用户验证信息结构(模型)的正确性,并为建立正确的信息模型自动计算信息提取(网页抓取/抽取)规则,产生各种信息提取指令文件,供信息提取引擎DataScraper使用。