搜索引擎的原理是什么

搜索引擎所搜索的信息他保存的时候应该是以一种什么样的方式保存的,是通过保存对方的url,只记录一些可能对检索这条url所使用的关键词,还是说保存了这个url保存的页面。如果是前者,他们是怎样确定这些个关键字的,特别是比较长的文章?如果是后者,那他们在进行检索匹配的时候是如何不要从比较长的文章中检索到很多没用的信息的?能否结合网页抓取/数据抽取/信息提取工具包MetaSeeker讲解一下?

简要说明什么是搜索引擎

首先URL对应的页面肯定要下载下来的,然后根据某个策略将里面的内容抽取出来,例如,对HTML META内容的处理可能与HTML BODY内容的处理不一样,接下来粗略地讲就应该分词了,将内容切分成一个个词或者字,然后就是建立索引库了,粗略地看,这个库就像一个辞典,里面也是一个一个的词/字,但是不是解释什么意思,而是记录这个字/词出现在哪个页面上的什么位置。实际上每个搜索引擎都有自己特有的实现,索引库可以存很多很多内容。至于哪些是有用的词哪些是没有用的,一般的搜索引擎无法从语义上进行识别,但是有个概念stop words,这些词一般是不索引的,例如,英语里面的 the, of等,当然,搜索引擎的运营者可以设定哪些作为stop words

普通的搜索引擎如上所述将页面上的文本索引到索引库中时,并不知道这些内容的语义,随着互联网内容爆炸式增长,搜索结果的准确性越来越受到人们的关注,同一个词在不同语境中含义不同,搜索引擎给出一些“不合时宜”的答案。如果,互联网中的内容是有语义结构的,就像数据库一样,假设用于从数据库中查询从深圳到北京的航班,输入的“深圳”的含义是明确的,它代表航班的出发地,而不是深圳有什么旅游经典,所以,用户获得的结果将很准确。可见语义结构存在的价值和识别的重要性。

网页抓取/数据抽取/信息提取软件工具包MetaSeeker最初是为采集网络数据设计的,例如,在垂直搜索、SNS、微博客时代,发挥了重要作用,随着语义网络时代的来临,MetaSeeker的语义结构定义和共享管理机制变得越来越突出了,使MetaSeeker明显区别于其他网络爬虫工具。MetaSeeker工具包中的MetaStudio除了用于定义数据抽取规则,其重要作用是定义语义结构,而且与MetaCamp服务器配合,采用免费SAAS方式给用户提供了一个社会化的语义结构协作定义和共享平台。发展到V3版本,在线版完全免费下载和使用,点击下载