网站数据采集软件工具包MetaSeeker的用户手册讲解了工具的使用方法,用户仍然可能觉得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具MetaStudio和网络爬虫工具DataScraper的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数据,期间还会穿插发布一些视频演示材料。
网站数据采集软件工具包MetaSeeker的用户手册讲解了工具的使用方法,用户仍然可能觉得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具MetaStudio和网络爬虫工具DataScraper的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数据,期间还会穿插发布一些视频演示材料。
网站内容采集系统MetaSeeker能够确保企业财富增值,并不是像其它网站内容采集系统那样通过攫取其他网站的内容达到增值目的,而且通过建设语义知识库,加入到企业内部的无形资产增值循环中,尤其适用于企业商业竞争情报采集和过程管理、信息咨询行业的网站内容采集和管理,当然也适合为传统的搜索引擎、手机搜索等企业采集网站内容。
网络云计算是MetaSeeker网站数据采集软件的基本原理,它不是一套单纯的软件系统,而是广域分布的网络云计算框架,在此网站数据采集云中,部署不限量的MetaCamp和DataStore服务器,协调MetaStudio和DataScraper客户端的工作,有组织、协同化进行网站数据采集,在此云计算框架上,还可以构建虚拟组织层叠(overlay)云,就像互联网上的VPN网络。灵活支持用户的多种网站数据采集模式:个人、小组织、大企业等。
网站数据采集软件MetaSeeker强大的技术基础造就了卓越的快且准的数据采集能力,牢固确立了在商业情报采集(商业智能 BI)、垂直搜索、手机互联网领域的地位。
网页抓取的目标是网页内容和超链接,后者是网络爬虫(例如,定题网络爬虫和动态网页抓取工具DataScraper)能够持续运转的基础。
考察网页信息提取软件工具包MetaSeeker的实现原理可以看出:MetaSeeker使用XPath和XSLT分析网页DOM并提取网页信息,虽然也可以使用一些字符串处理函数自定义XPath表达式,但是总体上说,与使用正则表达式分析HTML文档的方法相比区别十分明显。
网页上有大量的超链接,多数情况下显示成蓝色,而且有下划线,很好识别,点击它可以导航到其它网页,这是互联网冲浪的唯一途径。
网页内容抓取软件工具包MetaSeeker拥有多项强有力的特性帮助用户大批量高效率地抓取网页内容。很多情况下,目标网页的内容分成多页进行显示,从V1.0版本开始,MetaSeeker就有高适应性的翻页抓取能力,无论是用超链接表示翻页还是采用javascript/AJAX进行翻页,MetaSeeker都一视同仁。
网站内容采集规则生成工具MetaStudioV4.1.1版本加载先前定义的信息结构时,如果发现某个信息属性的定位规则不正确(一般情况下,目标网站页面的结构变化会引起这种问题,虽然MetaSeeker采用多项专利技术尽力自主锁定目标网站页面的变化,但是变化十分巨大的情况无法自动识别),将弹出一个提示框:
网站数据采集软件工具包MetaSeeker从V4.0.0版本开始增加了多项自定义网站数据采集规则的功能,当用户需要更灵活地从网站上采集数据时,例如,参照页面上特定文字内容采集数据(就像使用正则表达式匹配文字内容),可以自定义XPath表达式甚至XSLT指令片断。