信息提取

使用微软技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术资料汇总

网页抓取和数据抽取技术有很悠久的发展历史,大家通过各种技术手段实现网页内容的采集目的,而且,在每个计算技术发展阶段,大家都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具,本文将作为一个总目录,罗列各种实现方法和实践经验,以供参考,随着时间的推移,本文内容不断补充

一个Javascript引擎

网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具和DataScraper工具都是Mozilla Firefox的扩展(有人也叫插件,但是在Mozilla平台上插件和扩展是有区别的),所以,能够很好的利用Firefox浏览器中的javascript引擎提取AJAX网站内容,MetaSeeker工具也自然是一个客户端网站内容抓取工具,笔者也一直在关注服务器测抓取工具的发展,尤其对Python和Ruby技术比较关注。

为什么开发MetaSeeker工具包

开发MetaSeeker工具包的动机归因于对语义网络时代的憧憬,语义网络发轫于互联网之父提出了linked data的想法,通俗一点说,在语义网络中的内容是结构化数据,而不是现在的自由文本,只有结构化的数据才能实现计算机程序之间的信息交换,计算机程序也能很容易的自动处理结构化内容。在这种产业发展形式下,网络爬虫技术被赋予了新使命。

再次思考什么是语义网络

也许Web 3.0真的在迫近,有的人说web 3.0就是语义网络,所以,议论语义网络的文章比比皆是,毫无疑问,大家都拿“语义”来说事,所以将语义网络炒得很神。我一直反对将语义网络神秘化,语义网络应该是Tim Berners Lee最早提出来的,最初的想法只是对现有Web的演进,他说有four rules,实际上我理解成三点:

能够提取Ajax网站内容的信息提取工具

MetaSeeker工具包不能提取使用Ajax架构建设的网站的内容,是一件憾事,早在规划V3.x版本时,该特性就已经考虑在内了,但是,在计划阶段,该特性被裁减掉了,主要原因有两点:1,技术难度是比较大的,需要能够有效的控制Javascript引擎;2,凡是使用Ajax架构管理的内容,本意必然是不希望被共享(参见Javascript对搜索引擎爬虫的影响以及SEO策略),所以,用爬虫和信息提取工具硬生

什么是POSH

阅读plain old xml considered harmful时发现了一个资料库关于posh

什么是语义搜索引擎

最近读了Leigh Dodds的一篇文章Streams, Pools and Reservoirs,可谓长见识,Leigh Dodds认为语义搜索引擎(semantic search engine)和具有语义分析能力的搜索引擎(semantically enabled search engine)是两码事,得出这个结论的根据是对Web内容组织和检索的历史的回顾,类比曾经发生的Web的几个历史阶段,Leigh Dodds展望了基于linked data cloud的语义搜索引擎的特征,下面整理一下该文的要点及其思考<

学习social graph search

今天读了一篇文章Now You Can Change What Google Says About You,学到了一个新词social graph search,大概可以翻译成社交网络搜索吧。

百度阿拉丁平台有什么用?

刚看到一则新浪新闻百度阿拉丁平台上线了。从这个名提出来就开始关注,根据原来的宣传,该平台主要是用来索引Web上的暗信息,“阿拉丁”真是吊足了人的胃口,但是上了它的网站以后,左看右看,也没有什么特别的挖掘暗内容的手段。

Syndicate content