- 中文搜索引擎技术揭密:网络蜘蛛系统全面地讲解网络蜘蛛,也叫做网络爬虫,的原理,本文主要侧重综合搜索引擎使用的网络爬虫,与网页抓取/数据抽取/信息提取软件工具包MetaSeeker的定题网络爬虫,也叫聚焦网络爬虫是有区别的。
网页抓取和数据抽取技术有很悠久的发展历史,大家通过各种技术手段实现网页内容的采集目的,而且,在每个计算技术发展阶段,大家都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具,本文将作为一个总目录,罗列各种实现方法和实践经验,以供参考,随着时间的推移,本文内容不断补充
网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具和DataScraper工具都是Mozilla Firefox的扩展(有人也叫插件,但是在Mozilla平台上插件和扩展是有区别的),所以,能够很好的利用Firefox浏览器中的javascript引擎提取AJAX网站内容,MetaSeeker工具也自然是一个客户端网站内容抓取工具,笔者也一直在关注服务器测抓取工具的发展,尤其对Python和Ruby技术比较关注。
最近在威客任务/外包项目/招标项目搜索网站上不断观察威客们怎样做网络推广,搜索关键字“推广”“发帖”“营销”“流量”“网店”“销售”等等,看到了众多案例,大开眼界,以前只做过大型产品的品牌营销,在网络上做推广和促销是门外汉,我就跟踪了一个网友雇佣威客做网店中的童装的促销过程。
开发MetaSeeker工具包的动机归因于对语义网络时代的憧憬,语义网络发轫于互联网之父提出了linked data的想法,通俗一点说,在语义网络中的内容是结构化数据,而不是现在的自由文本,只有结构化的数据才能实现计算机程序之间的信息交换,计算机程序也能很容易的自动处理结构化内容。在这种产业发展形式下,网络爬虫技术被赋予了新使命。
也许Web 3.0真的在迫近,有的人说web 3.0就是语义网络,所以,议论语义网络的文章比比皆是,毫无疑问,大家都拿“语义”来说事,所以将语义网络炒得很神。我一直反对将语义网络神秘化,语义网络应该是Tim Berners Lee最早提出来的,最初的想法只是对现有Web的演进,他说有four rules,实际上我理解成三点: