Web技术

Javascript对搜索引擎爬虫的影响以及SEO策略

当前主流的搜索引擎的爬虫基本上都采用类似文本浏览器Lynx的技术,因此滥用Javascript代码可能会对搜索引擎的抓取操作造成不好的影响。例如,Google和Yahoo的官方文档中说:如果在html中过多的使用 JavaScript、Cookie、会话 ID(session ID)、框架(frame or iframe)、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。根据本人的Web数据提取经验,发现用Javascript实现如下功能时会给爬虫带来麻烦:

什么是CAPTCHA

本网站很多菜单和提示没有汉化,在发表评论或者发起一个讨论主题时,都要求进行CAPTCHA测试,实际上就是通常所说的输入校验码,本网站当前采用一种算算术的方式,而不是通常的变形字母识别方式。那么CAPTCHA这个词到底是怎么来的呢?

Mashup的基石:Feeds和Widgets

Mashup,即混搭,从其他地方获得的信息进行整合,混搭成新的应用呈现给用户。Mashup引擎就像一个信息整合的机器,输入第三方信息源提供的信息,将信息混搭后以一个新面孔输出。实际上,任何信息处理系统都是具有输入输出的信息加工机,Mashup有什么特色呢?下面的表格摘自IBM Mashup Center 初探:

什么是ontology

ontology本身是一个哲学概念,就哲学范畴内怎样翻译至今还存争论,在此我们使用“本体论”和“本体”。随着人工智能的发展,这个概念进入了计算机领域领域。近几年随着语义网络技术逐渐走向实用,ontology的概念有了新的补充,在语义网络领域,出现了复数ontologies,表示不同领域的多种多样的概念模型。下面是从网络上摘录的定义:

什么是SPARQL

SPARQL is a recursive acronym standing for SPARQL Protocol and RDF Query Language. As the name implies, SPARQL is a general term for both a protocol and a query language.

Most uses of the SPARQL acronym refer to the RDF query language. In this usage, SPARQL is a syntactically-SQL-like language for querying RDF graphs via pattern matching. The language's features include basic conjunctive patterns, value filters, optional patterns, and pattern disjunction.

什么是语义网络

语义网络代表两个含义:1,是将来自万维网多个信息源的信息集成起来需要的通用格式;2,是一种客体描述语言。

引自W3C: "The Semantic Web is about two things. It is about common formats for integration and combination of data drawn from diverse sources, where on the original Web mainly concentrated on the interchange of documents.

Web数据挖掘

数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。

Web数据挖掘是从Web上挖掘知识,随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。

Syndicate content