信息提取

在线个人资产和金融管理集成服务的新闻事件

今天的热点新闻应该是关于Intuit To Acquire (Former TechCrunch50 Winner) Mint For $170 Million

Mint成立才两年,以$140M出售给Intuit,所以很惹人注目和艳羡,愤怒的声音如The next generation bends over,开篇第一句:

网页内容提取软件工具MetaSeeker用于产品定价和竞争指数计算(competitor indexing)

竞争指数计算(competitor indexing)是市场营销人员用于产品定价的技巧,是营销组合(marketing mix)中的4P之一(中文解释可以参见营销组合和4P)。可见竞争指数计算既有悠久的历史,又是市场营销广泛使用的技巧。

网页内容提取软件工具包MetaSeeker的使用技巧

本网页将不断汇总典型的网页抓取/数据抽取/信息提取软件工具包MetaSeeker的使用案例,本页内容随着时间推移不断扩充

为网络营销采集email地址

在互联网(web)上,email营销是一个很有效的手段,在国外媒体上email营销和RSS营销排在网络营销的前两位,主要是因为两者有很强的送达效能,使用电子邮件可以进行各种各样的在线的营销推广活动,例如:

使用Java实现的网页内容抓取和数据抽取工具

  • 简洁轻便的Java浏览器HtmlUnit 2.6发布介绍了HtmlUnit,这是一个用Java编写的网站测试工具,是一个开源项目,网站测试工具一般通过模拟用户的点击网页的行为测试某个网站的所有网页是否正确、是否可访问等,因此同样的工具可以用于执行网站信息提取和网页数据抽取任务,而且网站测试工具一般能够很好的解析Javascript代码,所以很适合采集A

使用Ruby实现网页抓取和数据抽取

使用Javascript实现网页抓取和数据抽取

从语义网络向结构化数据回归

RWW最新文章Top 5 Web Trends of 2009: Structured Data将结构化数据(structured data)放在最前面讨论,虽然没有排序的意味,但是至少说明当人们思考新技术潮流时结构化数据首先出现在头脑中。

我在一系列文章中讨论了结构化数据(structured data)和结构化数据互联(linked data)及其与语义网络(semantic web)的关系,例如:

Century 21 Canada vs. Rogers Communications——涉及网站内容采集和数据抽取的诉讼

Century 21 Canada Sues Rogers Communications' Real Estate Site Over 'Data Scraping'是今天海外媒体和社会性媒体讨论的热点,一个比较详细的分析报道Rogers cited for 'scraping' listings可以看出是两个巨头之间的搏斗,诉“不公平竞争”,因为被告网站Zoocasa通过采集原告网站上的图片和房产介绍信息,认为被告网站获得了不公平的竞争优势(an unfair competitive advantage)并侵犯了著作权(copyright)

实时互联网(real-time web)是一种新的通信方式

Twitter的流行推动了实时互联网(real-time web)浪潮,实时互联网到底是什么,文章The Real-Time Web: A Primer从多个方面剖析了实时互联网的意义。下面针对针对作者提出的“实时互联网是一种新的通信方式”进行思考和研究。

Syndicate content