网页抓取

使用微软技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术资料汇总

网页抓取和数据抽取技术有很悠久的发展历史,大家通过各种技术手段实现网页内容的采集目的,而且,在每个计算技术发展阶段,大家都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具,本文将作为一个总目录,罗列各种实现方法和实践经验,以供参考,随着时间的推移,本文内容不断补充

一个Javascript引擎

网页抓取/数据抽取/信息提取软件工具包MetaSeeker中的MetaStudio工具和DataScraper工具都是Mozilla Firefox的扩展(有人也叫插件,但是在Mozilla平台上插件和扩展是有区别的),所以,能够很好的利用Firefox浏览器中的javascript引擎提取AJAX网站内容,MetaSeeker工具也自然是一个客户端网站内容抓取工具,笔者也一直在关注服务器测抓取工具的发展,尤其对Python和Ruby技术比较关注。

Syndicate content