知识库

什么是微格式(Microformat)

Microformat,有人翻译成“微格式”,是一种对Web网页进行语义注解的方法,这种方法依托于标准的Web页面写作技术,例如,XHTML,这样引入语义信息对浏览器等所有现存的Web技术冲击最小。采用Microformat的Web页面,在XHTML文档中给一些标签(Tag)增加一些属性(attribute),这些属性对信息的语义结构进行注解,处理XHTML文档的软件,例如,浏览器等,如果不认识这些属性可以跳过,并不造成任何不良影响。

Javascript对搜索引擎爬虫的影响以及SEO策略

当前主流的搜索引擎的爬虫基本上都采用类似文本浏览器Lynx的技术,因此滥用Javascript代码可能会对搜索引擎的抓取操作造成不好的影响。例如,Google和Yahoo的官方文档中说:如果在html中过多的使用 JavaScript、Cookie、会话 ID(session ID)、框架(frame or iframe)、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。根据本人的Web数据提取经验,发现用Javascript实现如下功能时会给爬虫带来麻烦:

什么是CAPTCHA

本网站很多菜单和提示没有汉化,在发表评论或者发起一个讨论主题时,都要求进行CAPTCHA测试,实际上就是通常所说的输入校验码,本网站当前采用一种算算术的方式,而不是通常的变形字母识别方式。那么CAPTCHA这个词到底是怎么来的呢?

Mashup的基石:Feeds和Widgets

Mashup,即混搭,从其他地方获得的信息进行整合,混搭成新的应用呈现给用户。Mashup引擎就像一个信息整合的机器,输入第三方信息源提供的信息,将信息混搭后以一个新面孔输出。实际上,任何信息处理系统都是具有输入输出的信息加工机,Mashup有什么特色呢?下面的表格摘自IBM Mashup Center 初探:

什么是ontology

ontology本身是一个哲学概念,就哲学范畴内怎样翻译至今还存争论,在此我们使用“本体论”和“本体”。随着人工智能的发展,这个概念进入了计算机领域领域。近几年随着语义网络技术逐渐走向实用,ontology的概念有了新的补充,在语义网络领域,出现了复数ontologies,表示不同领域的多种多样的概念模型。下面是从网络上摘录的定义:

什么是SPARQL

SPARQL is a recursive acronym standing for SPARQL Protocol and RDF Query Language. As the name implies, SPARQL is a general term for both a protocol and a query language.

Most uses of the SPARQL acronym refer to the RDF query language. In this usage, SPARQL is a syntactically-SQL-like language for querying RDF graphs via pattern matching. The language's features include basic conjunctive patterns, value filters, optional patterns, and pattern disjunction.

什么是语义网络

语义网络代表两个含义:1,是将来自万维网多个信息源的信息集成起来需要的通用格式;2,是一种客体描述语言。

引自W3C: "The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources, where on the original Web mainly concentrated on the interchange of documents.

什么是垂直搜索

垂直搜索引擎的英语名称是:vertical search engine, specialized search engine, specialty search engine, vortals,是相对于通用搜索引擎而言的,在维基百科中通用搜索引擎用词汇 broad-based search 表示[1]。下面将从多个信息源摘编相关知识以飨读者。

Web数据挖掘

数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。

Web数据挖掘是从Web上挖掘知识,随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。

HTML <wbr> 标签

<wbr> (Word BReak) 表示:“如果需要,浏览器将在此换行“。如果浏览器觉得没有必要换行,则什么也不执行。

该标签可以应用于以下场景:

Syndicate content