技术内幕

一种半自动抓取AJAX文档数据的方法

网络文档抓取工具包MetaSeeker具有很强的AJAX文档数据抓取能力,由于AJAX网站设计并无定式,可发挥空间很大,所以,MetaSeeker抓取AJAX文档的能力再强也不可能宣称适用所有AJAX情况,所以,GooSeeker采取逐步加强的策略,每个新版本都增加一些AJAX情形。

MetaSeeker发展到V4.10.0版本,不能抓取的AJAX文档有下面两大情形:

解决翻页提取Web数据中断问题

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的,Web数据提取软件工具包MetaSeeker能够模拟用户点击行为,执行翻页操作,这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。

如何抓取AJAX动态页面

笔者已经发表过多篇述及AJAX动态页面抓取原理的文章,本文将进行一次总结,首先,下面是以前文章的汇总:

增强AJAX/Javascript/JS网页文字抓取能力

本文是对《AJAX动态网页信息提取原理》的补充,前文总结了两种AJAX网页文字的抓取方法:

路径名和文件名长度对网页内容提取软件的影响

网页内容提取软件MetaSeeker将提取结果文件(XML文件)存储在本地目录DataScraperWorks下,主题名组成下一级子目录,在此子目录下存储网页内容提取结果文件,由于操作系统对一个目录下存储多少文件有限制,所以,在当提取结果文件很多时,会再建立一层子目录,名字是moreharvest,如果moreharvest子目录下文件又变得很多了,会再向下建立一层名字同样为moreharvest的子目录,缺省情况下,每级子目录中存

抽取手机游戏类别网页的超链接

上一节讲了怎样扩展网络爬虫路线图,实际上是从广度上扩展网页数据抽取的范围,本来只抽取一类手机游戏数据,现在可以抽取12类游戏数据了,但是,至此,这12类游戏列表网页的超链接是通过定义12次信息结构实现的,虽然使用上节介绍的快捷方法可以在几分钟完成,但是,毕竟是手工创建了12个网页抽取线索,如果目标网站上的游戏类别变化了,用这些主题抽取网页数据时发现不了

抓取更多类手机游戏网页数据

定义demo_list_game_basic主题时,我们选择了样本页面http://www.cn3gw.com/html/game/dongzuo/,我们继续研究这个网页的结构,我们看到两处分类列表(如图1 A和B)。分析以后,发现两个列表都导向相同的网页,但是网页的URL不太一样(实际上是一样,A使用网页URL的路径名,从而访问缺省的index.html页,而B使用完整的URL地址),选择A或者B都可以,但是,为了保持与demo_list_game_basic一致,我们选用A。

抓取手机游戏网页内容

也许受此手机游戏网站的动作游戏所吸引,想为自己做一个手机动作类游戏搜索引擎或者仅仅是个简单的索引库,那么网页内容抓取软件工具包MetaSeeker就派上用场了,首先使用工具包中的MetaStudio工具定义抓取规则,从加载样本页面到生成游戏抓取规则,全部在MetaStudio图形化界面上操作,自动生成的内容抓取规则交给DataScraper,后者爬行网站并抓取

案例:如何规划网站数据采集

网站数据采集软件工具包MetaSeeker的用户手册讲解了工具的使用方法,用户仍然可能觉得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具MetaStudio和网络爬虫工具DataScraper的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数据,期间还会穿插发布一些视频演示材料。

网站内容采集系统和企业财富增值

网站内容采集系统MetaSeeker能够确保企业财富增值,并不是像其它网站内容采集系统那样通过攫取其他网站的内容达到增值目的,而且通过建设语义知识库,加入到企业内部的无形资产增值循环中,尤其适用于企业商业竞争情报采集和过程管理、信息咨询行业的网站内容采集和管理,当然也适合为传统的搜索引擎、手机搜索等企业采集网站内容。

Syndicate content