读了一则新闻Easyjet takes legal action against screen scraping,是因为非授权的信息提取(screen scraping)引起的纠纷,这两年已经看到多起了,而且都是在航运领域,但是,一直没有想明白,为什么会这么集中到这个领域?
读了一则新闻Easyjet takes legal action against screen scraping,是因为非授权的信息提取(screen scraping)引起的纠纷,这两年已经看到多起了,而且都是在航运领域,但是,一直没有想明白,为什么会这么集中到这个领域?
MetaSeeker不仅仅是一个Web信息提取工具/信息抓取工具,它还是一个驻留在Web上的服务,采用一种协同方式由用户维护网页的信息结构。去年产品第一版发布后,一个用户在10月份问我:作为一个信息提取工具为什么要做成Web驻留的方式。
对人生的期许过于理想化不是一件好事,几年前为语义网络技术所吸引,深奥的理论研究已经做不了了,只想搞点实用的小东西。
在Web信息提取领域工作多年,经历了垂直搜索、社交网络、mashup、MEME、推荐引擎等多个浪潮,每个浪潮都需要大量的信息提取/页面抓取工具,经过多年的定制开发工作,发现这个领域简直是长青藤,要创办上述网站,需要消耗很大费用用于提取数据。
最近连续看到国外媒体报道推荐引擎盈利的消息,很受鼓舞。关于推荐引擎,早在2006年发表的文章美国手机业界看好“移动检索”,有这样一句话:
要想将检索结果的数量减少到用户真正需要的7项,必须使用性能强大的推荐引擎等至今还没有的技术。此类技术若能实现,或许还会影响到电脑检索技术
MetaSeeker V3.1.0已经发布了,相对于V2版本,改动相当大,耗费的资金和时间远远超出预期,随着越来越多用户下载使用,规划下一版本的时候到了。
同携程vs去哪儿--关于信息提取(抓取)的案例类似,分析这个案例同样对正确使用信息提取工具和提取到的信息会有帮助
分析这个案例也许能够指导我们正确合法地使用信息提取工具和提取到的信息,本人认为,被告的辩称有些牵强,如果将别人的内容提取下来后简单的进行展现,这种做法与商业搜索引擎服务有着天壤之别,因为后者对提取的信息进行了增值加工,这是关键,同样,本人认为被告滥用了“分享”这个概念。
Web信息提取(抓取)一般采用screen scraping或者web scraping等方法,通常情况下,这些方法经常遭到信息提供者的抵制,他们往往认为自己的信息被“窃取”了,实际上,几乎所有搜索引擎(包括所有的巨头)都采用了类似的抓取方法,只是搜索引擎对抓取到的信息的进一步处理往往会给信息提供者创造价值。实际上,screen scraping和web scraping等只是技术方法,关键要看使用者是否能够在信息加工过程中带来双赢的效果。
Beautiful Soup是用Python开发的HTML/XML解析期,当前已经发展到3.x版本,解析功能十分强大,实际上如其将其作为信息提取产品进行研究,作为一个开发框架,在其基础上可以开发出定制化的信息提取/抓取工具,就像在它首页上宣称的:可以用来快速开发screen scraping产品。凸现其强大的解析能力的特性有下面三点[1]: