怎样指导网络蜘蛛爬行互联网

万维网(Web,有时也叫成互联网)是由众多HTML网页文档织成的网,HTML文档中的超链接是织网的线,我们形象地将Web看成一张蜘蛛网,网络蜘蛛顺着超链接线索扩展爬行范围,所以,网络蜘蛛的原理如此简单,而且大部分免费下载的开源的网络蜘蛛爬行Web过程都不需要用户干预,由它自主决定怎样扩展爬行范围,一般来说,网络蜘蛛会将网上的所有超链接提取出来,作为今后爬行的线索。但是,网络蜘蛛/网页内容抓取软件工具包MetaSeeker中的网络蜘蛛不同,是一个定题网络蜘蛛(或者称为聚焦网络蜘蛛),爬行范围必须符合特定主题,所以,因为网络蜘蛛并不能理解网页内容的语义,用户必须进行干预,指导网络蜘蛛在主题规定的范围内爬行,也就是说,需要给网络蜘蛛定义超链接提取规则,将网页上的与主题不相关的超链接滤除掉。

MetaStudio的Clue Editor工作台提供了诸多超链接提取规则定义手段,图形用户界面(GUI)可以避免手工编写提取规则引入错误。

一般,一个网页上有很多超链接,分属不同主题,如果需要将它们提取下来,为每一个超链接定义特定的提取规则显然是不可行的,所以,MetaStudio将超链接进行了分类,只要为有限的类别定义提取规则即可,所以,首先根据主题提取需要,创建各种线索,并对其特征进行描述。

然后,指定从网页的什么位置提取超链接,为了提高超链接提取规则的适应性,尽量不要使用绝对路径的XPath表达式定位确定的HTML DOM节点,而是在HTML页面的某个范围内,根据超链接的特征进行提取,所以,分成了Marker类、Pattern类、Relative类线索,这些都用于在某个范围内提取网络蜘蛛线索。MetaStudio的优势在于全图形化界面操作,所以,指定从页面什么位置提取网络蜘蛛线索是通过线索映射完成的,例如,指定从HTML某个范围或者确定位置(用于Single类线索)提取超链接的过程称为线索映射;为Marker类指定以网页上的什么文字或者结构信息作为标志是通过记号映射完成的;为Pattern类指定以什么URL样式匹配和提取超链接的过程称为样式映射;为Relative类指定参照哪个超链接提取另一个超链接的过程称为相对映射。映射完成后,由MetaStudio自动生成网络蜘蛛线索提取规则文件,用户可以预览规则文件,检查其正确性。MetaStudio还提供比较全面的错误提示和日志功能。