Microformat,有人翻译成“微格式”,是一种对Web网页进行语义注解的方法,这种方法依托于标准的Web页面写作技术,例如,XHTML,这样引入语义信息对浏览器等所有现存的Web技术冲击最小。采用Microformat的Web页面,在XHTML文档中给一些标签(Tag)增加一些属性(attribute),这些属性对信息的语义结构进行注解,处理XHTML文档的软件,例如,浏览器等,如果不认识这些属性可以跳过,并不造成任何不良影响。
Microformat,有人翻译成“微格式”,是一种对Web网页进行语义注解的方法,这种方法依托于标准的Web页面写作技术,例如,XHTML,这样引入语义信息对浏览器等所有现存的Web技术冲击最小。采用Microformat的Web页面,在XHTML文档中给一些标签(Tag)增加一些属性(attribute),这些属性对信息的语义结构进行注解,处理XHTML文档的软件,例如,浏览器等,如果不认识这些属性可以跳过,并不造成任何不良影响。
当前主流的搜索引擎的爬虫基本上都采用类似文本浏览器Lynx的技术,因此滥用Javascript代码可能会对搜索引擎的抓取操作造成不好的影响。例如,Google和Yahoo的官方文档中说:如果在html中过多的使用 JavaScript、Cookie、会话 ID(session ID)、框架(frame or iframe)、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。根据本人的Web数据提取经验,发现用Javascript实现如下功能时会给爬虫带来麻烦:
本网站很多菜单和提示没有汉化,在发表评论或者发起一个讨论主题时,都要求进行CAPTCHA测试,实际上就是通常所说的输入校验码,本网站当前采用一种算算术的方式,而不是通常的变形字母识别方式。那么CAPTCHA这个词到底是怎么来的呢?
Mashup,即混搭,从其他地方获得的信息进行整合,混搭成新的应用呈现给用户。Mashup引擎就像一个信息整合的机器,输入第三方信息源提供的信息,将信息混搭后以一个新面孔输出。实际上,任何信息处理系统都是具有输入输出的信息加工机,Mashup有什么特色呢?下面的表格摘自IBM Mashup Center 初探:
SPARQL is a recursive acronym standing for SPARQL Protocol and RDF Query Language. As the name implies, SPARQL is a general term for both a protocol and a query language.
Most uses of the SPARQL acronym refer to the RDF query language. In this usage, SPARQL is a syntactically-SQL-like language for querying RDF graphs via pattern matching. The language's features include basic conjunctive patterns, value filters, optional patterns, and pattern disjunction.
语义网络代表两个含义:1,是将来自万维网多个信息源的信息集成起来需要的通用格式;2,是一种客体描述语言。
引自W3C: "The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources, where on the original Web mainly concentrated on the interchange of documents.
垂直搜索引擎的英语名称是:vertical search engine, specialized search engine, specialty search engine, vortals,是相对于通用搜索引擎而言的,在维基百科中通用搜索引擎用词汇 broad-based search 表示[1]。下面将从多个信息源摘编相关知识以飨读者。
数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。
Web数据挖掘是从Web上挖掘知识,随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。
<wbr> (Word BReak) 表示:“如果需要,浏览器将在此换行“。如果浏览器觉得没有必要换行,则什么也不执行。
该标签可以应用于以下场景: