他山之石

使用Flex技术实现网站内容抓取和数据抽取

使用Python技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术方法

使用Delphi技术实现网站内容抓取和数据抽取

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用PHP技术实现网站内容抓取和数据抽取

使用Java技术实现网站内容抓取和数据抽取

使用微软技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术资料汇总

网页抓取和数据抽取技术有很悠久的发展历史,大家通过各种技术手段实现网页内容的采集目的,而且,在每个计算技术发展阶段,大家都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具,本文将作为一个总目录,罗列各种实现方法和实践经验,以供参考,随着时间的推移,本文内容不断补充

能够提取Ajax网站内容的信息提取工具

MetaSeeker工具包不能提取使用Ajax架构建设的网站的内容,是一件憾事,早在规划V3.x版本时,该特性就已经考虑在内了,但是,在计划阶段,该特性被裁减掉了,主要原因有两点:1,技术难度是比较大的,需要能够有效的控制Javascript引擎;2,凡是使用Ajax架构管理的内容,本意必然是不希望被共享(参见Javascript对搜索引擎爬虫的影响以及SEO策略),所以,用爬虫和信息提取工具硬生

企业Web2.0解决方案

最近在媒体上看到IBM提出的“面向企业的 Web 2.0 五大核心领域”,作为学习材料,摘录如下内容:

Syndicate content