Blogs

360度混搭(mashup)服务

因为混搭是网页抓取/数据抽取/信息提取软件工具包MetaSeeker的服务对象,所以,对混搭(mashup)一直比较关注,看到过各种引人注目的混搭,今天看到一个所谓的“360度混搭”,真是青出于蓝。

几个语义网络和语义搜索产品

什么是语义搜索引擎一文是2009年4月的一篇文章的读后感,笔者认为这是语义网络技术向linked data思想的回归,那么采取自然语言处理和人工智能路线的产品和服务发展的怎样了?今天阅读到一篇新文章HealthBase Is The Ultimate M

使用抽取技术过滤不良网络内容

今天在网上闲逛,看到一篇文章应对不良网络文化的技术之一——网络信息抽取技术,文章标题很有冲击力,一般来说网页抓取和数据抽取往往被看成一种内容“窃取”的行为,一般不受欢迎,网页抓取/数据抽取/信息提取软件工具包MetaSeeker本质上就是一个网站内容采集工具,只是其作者找到了一个更有积极意义的定位,期望能够

使用Python技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术方法

使用Delphi技术实现网站内容抓取和数据抽取

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用PHP技术实现网站内容抓取和数据抽取

使用Java技术实现网站内容抓取和数据抽取

使用微软技术实现网站内容抓取和数据抽取

网页抓取/数据抽取/网络爬虫技术资料汇总

网页抓取和数据抽取技术有很悠久的发展历史,大家通过各种技术手段实现网页内容的采集目的,而且,在每个计算技术发展阶段,大家都在尝试使用更先进的技术和编程语言实现更强大的网站内容采集工具,本文将作为一个总目录,罗列各种实现方法和实践经验,以供参考,随着时间的推移,本文内容不断补充

Syndicate content