搜索引擎

什么是Shingling算法

shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下:

FreeFormat技术的社区性/社会性

什么是FreeFormat一文简单地说明了该技术方法的技术路线,本文进一步阐述FreeFormat技术方法的价值,也就是所谓的社区性或社会性,而且可以改变Web信息提取的用途,使其能够回馈互联网大社区。

什么是FreeFormat

FreeFormat是GooSeeker提出的一个概念,其理念描述如下:

当今,MicroFormat技术逐渐被接受,但是MicroFormat采用的是标准化的思路,一个MicroFormat结构被某组织和个人提出来后,只有大家公认和遵照了,才能成为事实上的标准,但是,无论标准是官方的还是民间的,都需要一个比较长的接纳过程,然而,互联网上新信息及其结构不断涌现,标准化道路是及其漫长的。

Javascript对搜索引擎爬虫的影响以及SEO策略

当前主流的搜索引擎的爬虫基本上都采用类似文本浏览器Lynx的技术,因此滥用Javascript代码可能会对搜索引擎的抓取操作造成不好的影响。例如,Google和Yahoo的官方文档中说:如果在html中过多的使用 JavaScript、Cookie、会话 ID(session ID)、框架(frame or iframe)、DHTML 或 Flash 等复杂功能会使搜索引擎抓取工具在抓取网站时可能会遇到问题。根据本人的Web数据提取经验,发现用Javascript实现如下功能时会给爬虫带来麻烦:

什么是垂直搜索

垂直搜索引擎的英语名称是:vertical search engine, specialized search engine, specialty search engine, vortals,是相对于通用搜索引擎而言的,在维基百科中通用搜索引擎用词汇 broad-based search 表示[1]。下面将从多个信息源摘编相关知识以飨读者。

Syndicate content