网络云计算是MetaSeeker网站数据采集软件的基本原理,它不是一套单纯的软件系统,而是广域分布的网络云计算框架,在此网站数据采集云中,部署不限量的MetaCamp和DataStore服务器,协调MetaStudio和DataScraper客户端的工作,有组织、协同化进行网站数据采集,在此云计算框架上,还可以构建虚拟组织层叠(overlay)云,就像互联网上的VPN网络。灵活支持用户的多种网站数据采集模式:个人、小组织、大企业等。
网络云计算是MetaSeeker网站数据采集软件的基本原理,它不是一套单纯的软件系统,而是广域分布的网络云计算框架,在此网站数据采集云中,部署不限量的MetaCamp和DataStore服务器,协调MetaStudio和DataScraper客户端的工作,有组织、协同化进行网站数据采集,在此云计算框架上,还可以构建虚拟组织层叠(overlay)云,就像互联网上的VPN网络。灵活支持用户的多种网站数据采集模式:个人、小组织、大企业等。
网站数据采集软件MetaSeeker强大的技术基础造就了卓越的快且准的数据采集能力,牢固确立了在商业情报采集(商业智能 BI)、垂直搜索、手机互联网领域的地位。
网页抓取的目标是网页内容和超链接,后者是网络爬虫(例如,定题网络爬虫和动态网页抓取工具DataScraper)能够持续运转的基础。
考察网页信息提取软件工具包MetaSeeker的实现原理可以看出:MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息,虽然也可以使用一些字符串处理函数自定义XPath表达式,但是总体上说,与使用正则表达式分析HTML文档的方法相比区别十分明显。
网页上有大量的超链接,多数情况下显示成蓝色,而且有下划线,很好识别,点击它可以导航到其它网页,这是互联网冲浪的唯一途径。
网页内容抓取软件工具包MetaSeeker拥有多项强有力的特性帮助用户大批量高效率地抓取网页内容。很多情况下,目标网页的内容分成多页进行显示,从V1.0版本开始,MetaSeeker就有高适应性的翻页抓取能力,无论是用超链接表示翻页还是采用javascript/AJAX进行翻页,MetaSeeker都一视同仁。
网站内容采集规则生成工具MetaStudioV4.1.1版本加载先前定义的信息结构时,如果发现某个信息属性的定位规则不正确(一般情况下,目标网站页面的结构变化会引起这种问题,虽然MetaSeeker采用多项专利技术尽力自主锁定目标网站页面的变化,但是变化十分巨大的情况无法自动识别),将弹出一个提示框:
网站数据采集软件工具包MetaSeeker从V4.0.0版本开始增加了多项自定义网站数据采集规则的功能,当用户需要更灵活地从网站上采集数据时,例如,参照页面上特定文字内容采集数据(就像使用正则表达式匹配文字内容),可以自定义XPath表达式甚至XSLT指令片断。
网页抓取软件工具MetaSeeker从V4.0.0版本开始,提供了两种周期性网页抓取功能:手工启动和自动启动。其中,手工启动方法是点击DataScraper界面上的主题列表上的鼠标右键弹出菜单排期,而自动启动是网页抓取和数据结构化工具DataScraper运行之初自动启动的,需要事先在周期性网页抓取指令文件中配置说明。
负责网页抓取的网络爬虫(网络蜘蛛)一般需要周期性地(重复地)爬行网页,搜索引擎的网络爬虫重复爬行网页的目的是发现网页内容是否发生了改变,如果改变了,需要及时地修改索引库,为了提高工作效率,重复爬行的周期需要用一个比较复杂的算法计算出来,例如,自适应的算法能够根据目标网站的内容更新的频度确定什么时间再次抓取网页。