笔者已经发表过多篇述及AJAX动态页面抓取原理的文章,本文将进行一次总结,首先,下面是以前文章的汇总:
本文是对《AJAX动态网页信息提取原理》的补充,前文总结了两种AJAX网页文字的抓取方法:
网页内容提取软件MetaSeeker将提取结果文件(XML文件)存储在本地目录DataScraperWorks下,主题名组成下一级子目录,在此子目录下存储网页内容提取结果文件,由于操作系统对一个目录下存储多少文件有限制,所以,在当提取结果文件很多时,会再建立一层子目录,名字是moreharvest,如果moreharvest子目录下文件又变得很多了,会再向下建立一层名字同样为moreharvest的子目录,缺省情况下,每级子目录中存
上一节讲了怎样扩展网络爬虫路线图,实际上是从广度上扩展网页数据抽取的范围,本来只抽取一类手机游戏数据,现在可以抽取12类游戏数据了,但是,至此,这12类游戏列表网页的超链接是通过定义12次信息结构实现的,虽然使用上节介绍的快捷方法可以在几分钟完成,但是,毕竟是手工创建了12个网页抽取线索,如果目标网站上的游戏类别变化了,用这些主题抽取网页数据时发现不了
定义demo_list_game_basic主题时,我们选择了样本页面http://www.cn3gw.com/html/game/dongzuo/,我们继续研究这个网页的结构,我们看到两处分类列表(如图1 A和B)。分析以后,发现两个列表都导向相同的网页,但是网页的URL不太一样(实际上是一样,A使用网页URL的路径名,从而访问缺省的index.html页,而B使用完整的URL地址),选择A或者B都可以,但是,为了保持与demo_list_game_basic一致,我们选用A。
网站数据采集软件工具包MetaSeeker的用户手册讲解了工具的使用方法,用户仍然可能觉得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具MetaStudio和网络爬虫工具DataScraper的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数据,期间还会穿插发布一些视频演示材料。
网站内容采集系统MetaSeeker能够确保企业财富增值,并不是像其它网站内容采集系统那样通过攫取其他网站的内容达到增值目的,而且通过建设语义知识库,加入到企业内部的无形资产增值循环中,尤其适用于企业商业竞争情报采集和过程管理、信息咨询行业的网站内容采集和管理,当然也适合为传统的搜索引擎、手机搜索等企业采集网站内容。
网络云计算是MetaSeeker网站数据采集软件的基本原理,它不是一套单纯的软件系统,而是广域分布的网络云计算框架,在此网站数据采集云中,部署不限量的MetaCamp和DataStore服务器,协调MetaStudio和DataScraper客户端的工作,有组织、协同化进行网站数据采集,在此云计算框架上,还可以构建虚拟组织层叠(overlay)云,就像互联网上的VPN网络。灵活支持用户的多种网站数据采集模式:个人、小组织、大企业等。
网站数据采集软件MetaSeeker强大的技术基础造就了卓越的快且准的数据采集能力,牢固确立了在商业情报采集(商业智能 BI)、垂直搜索、手机互联网领域的地位。