问一下搜索引擎的工作原理

我想问一下现在搜索引擎是收到一个用户的搜索请求就去检索一些网页上的信息,还是先把信息提取了,存放在什么地方呢?网页抓取/数据抽取/信息提取软件工具包MetaSeeker是怎样实现的?

MetaSeeker工具包中的搜索引擎的原理

大家一开始对搜索引擎不了解时都有可能认为搜索引擎是在响应用户请求时才去“搜索”,如果那样,他也不是先知从而知道到哪里去找,另外,响应速度不知道会慢成什么样子。搜索引擎都是预先将网络内容抓取下来,并给这些内容建立索引,不像普通图书馆给书名列一个书目,搜索引擎是将网络内容的所有字或者词及其出现的位置都记录下来,所以,用户可以输入某个词查找出现的位置

网页抓取/数据抽取/信息提取软件工具包MetaSeeker是一套完整的数据提取集成和搜索解决方案。其中,

  1. MetaStudio,用于定制目标网页内容抓取/抽取/提取规则,完全免除编程和调试的麻烦,全图形界面,定制一个新网站的抓取/抽取/提取规则只需要几分钟
  2. DataScraper,用于连续且高效得从目标网站上抓取/抽取/提取内容,并滤除不需要的内容,存成XML文件
  3. SliceSearch,将抓取/抽取/提取到的内容存储到搜索引擎中,提供强大的搜索功能和内容管理功能,用于快速部署垂直搜索和商业推荐引擎。

使用SliceSearch建立的搜索引擎跟当前流行的搜索引擎相比进行了改进,将抽取出来的数据按照语义结构进行索引,因此,提供更准确的搜索服务。另外,使用专利技术,采用语义导航的方式精炼搜索结果,很适合手机搜索等没有全尺寸键盘的场合。

MetaSeeker工具包历经垂直搜索、SNS、微博客多个浪潮的洗礼,已经发展到V3版本,为了促进下一代语义网络的建设,版本分成企业版和在线版,在线版免费下载使用,以便大家都能参与互联网数据集成活动中来。点击下载