have a test
Web信息提取(抓取)一般采用screen scraping或者web scraping等方法,通常情况下,这些方法经常遭到信息提供者的抵制,他们往往认为自己的信息被“窃取”了,实际上,几乎所有搜索引擎(包括所有的巨头)都采用了类似的抓取方法,只是搜索引擎对抓取到的信息的进一步处理往往会给信息提供者创造价值。实际上,screen scraping和web scraping等只是技术方法,关键要看使用者是否能够在信息加工过程中带来双赢的效果。
Reunion是洛杉矶的一个社交网站,10月6日,法院判决关闭该网站,依据是加利福尼亚州反垃圾邮件的相关法律。
最近看到一篇文章The New Stack: SaaS, Cloud Computing, Core Technology,该文将软件即服务(Saas)、云计算(Cloud computing)和核心技术形象的用一个技术栈表示,最上层是Saas,中间是云计算,最底层是核心技术。
MetaSeeker工具包跟其它的信息提取工具不同,不是一个单纯的信息下载工具,MetaSeeker虽然有业界领先的信息提取能力,例如,对Javascript的处理,但是,MetaSeeker侧重于Web内容的结构化,而结构化是绝大多数计算机信息处理的基础,而MetaSeeker的开放的基于Web服务的架构给多样化的计算机信息处理应用充分广阔的舞台,在建立在线艺术画廊解决方案中,目标图片并不由MetaSeeker下载,而是引入
这件事让我想起了Julian Dibbell的著名文章A Rape in Cyberspace(《网络空间里的强奸》),这篇文章是有感于“Bungle先生事件”写成的,那是发生在1993年的事情。1991年发布了一款基于MUD的游戏LambdaMOO,这款游戏引起了学者对虚拟社区的社会问题的思考,1992年,LamdaMOO提供了一种虚拟环境,试图建立一种民主政府结构,该结构只能由玩家运行,而不受现实世界的行政影响,到1993年,发生了虚拟强奸事件,这应该是在虚拟环境中的第一次重大社会事件。
此前,我们已经在什么是Web3.0及其评论中讲述了Web3.0与Web1.0和Web2.0的区别,然而在每个Web阶段,赚钱一直是困扰业界的难题,Google等巨头的成功给我们指明了方向,网络广告几乎变成了唯一的赚钱途径,这不能不引发人们的担忧,将来到了Web3.0阶段,赚钱途径是否会更开阔,今天阅读了一篇文章[1],其内容很丰富,然而在Web3.0时代怎样赚钱的问题上让我失望:还是广告,只是更精准的广告投放,所谓语义广告。下面我们引述部分内容:
DMZ是英文“demilitarized zone”的缩写,中文名称为“隔离区”,也称“非军事化区”。它是为了解决安装防火墙后外部网络不能访问内部网络服务器的问题,而设立的一个非安全系统与安全系统之间的缓冲区,这个缓冲区位于企业内部网络和外部网络之间的小网络区域内,在这个小网络区域内可以放置一些必须公开的服务器设施,如企业Web服务器、FTP服务器和论坛等。
Google等搜索引擎注重的是网页内容的抓取和索引,而MAMA(Metadata Analysis and Mining Application,元数据分析挖掘应用)是Opera首创的可以追踪网页结构的“搜索引擎”,可以对网页的标记、样式、脚本和其他网络开发技术进行索引。
据[1]消息,自己邮箱里的求职信在百度上被搜出,杭州律师郭先生起诉邮箱服务商和百度公司,索赔经济损失2628元和精神抚慰金100万元。不过,他的请求近日被法院终审驳回。
2006年7月19日,郭先生使用在北京万网志成科技公司的电子邮箱,向杭州一家律所发了求职信。一个多月后,郭先生在百度上搜索律所名称和自己的姓名时,发现了这封求职信。