同携程vs去哪儿--关于信息提取(抓取)的案例类似,分析这个案例同样对正确使用信息提取工具和提取到的信息会有帮助
同携程vs去哪儿--关于信息提取(抓取)的案例类似,分析这个案例同样对正确使用信息提取工具和提取到的信息会有帮助
What is Web Automation一文专门讲解了Web自动化的各种用例以及MetaSeeker工具在Web自动化解决方案中的不可或缺的作用。然而,并没有涉及到Web自动化引擎内部的实现原理。其实,Web自动化是个很模糊的概念,所以其范畴很广泛,在社会性媒体十分繁荣的今天,怎样有效管理自己在社会性媒体上的内容是一个很受关注的领域,下面将罗列几个管理社会性媒体网络(例如,同时在多个社会性媒体上发表文章或者商业推广等)的工具,将重点讲解一个新创服务Tarpipe,因为其独具特色的工作流定制工具,我们将其列入Web自动化的范畴。
分析这个案例也许能够指导我们正确合法地使用信息提取工具和提取到的信息,本人认为,被告的辩称有些牵强,如果将别人的内容提取下来后简单的进行展现,这种做法与商业搜索引擎服务有着天壤之别,因为后者对提取的信息进行了增值加工,这是关键,同样,本人认为被告滥用了“分享”这个概念。
Web信息提取(抓取)一般采用screen scraping或者web scraping等方法,通常情况下,这些方法经常遭到信息提供者的抵制,他们往往认为自己的信息被“窃取”了,实际上,几乎所有搜索引擎(包括所有的巨头)都采用了类似的抓取方法,只是搜索引擎对抓取到的信息的进一步处理往往会给信息提供者创造价值。实际上,screen scraping和web scraping等只是技术方法,关键要看使用者是否能够在信息加工过程中带来双赢的效果。
Reunion是洛杉矶的一个社交网站,10月6日,法院判决关闭该网站,依据是加利福尼亚州反垃圾邮件的相关法律。
最近看到一篇文章The New Stack: SaaS, Cloud Computing, Core Technology,该文将软件即服务(Saas)、云计算(Cloud computing)和核心技术形象的用一个技术栈表示,最上层是Saas,中间是云计算,最底层是核心技术。
MetaSeeker工具包跟其它的信息提取工具不同,不是一个单纯的信息下载工具,MetaSeeker虽然有业界领先的信息提取能力,例如,对Javascript的处理,但是,MetaSeeker侧重于Web内容的结构化,而结构化是绝大多数计算机信息处理的基础,而MetaSeeker的开放的基于Web服务的架构给多样化的计算机信息处理应用充分广阔的舞台,在建立在线艺术画廊解决方案中,目标图片并不由MetaSeeker下载,而是引入
这件事让我想起了Julian Dibbell的著名文章A Rape in Cyberspace(《网络空间里的强奸》),这篇文章是有感于“Bungle先生事件”写成的,那是发生在1993年的事情。1991年发布了一款基于MUD的游戏LambdaMOO,这款游戏引起了学者对虚拟社区的社会问题的思考,1992年,LamdaMOO提供了一种虚拟环境,试图建立一种民主政府结构,该结构只能由玩家运行,而不受现实世界的行政影响,到1993年,发生了虚拟强奸事件,这应该是在虚拟环境中的第一次重大社会事件。
DMZ是英文“demilitarized zone”的缩写,中文名称为“隔离区”,也称“非军事化区”。它是为了解决安装防火墙后外部网络不能访问内部网络服务器的问题,而设立的一个非安全系统与安全系统之间的缓冲区,这个缓冲区位于企业内部网络和外部网络之间的小网络区域内,在这个小网络区域内可以放置一些必须公开的服务器设施,如企业Web服务器、FTP服务器和论坛等。