信息提取

腾讯博客AJAX页面抓取技术讲解

目前,大型博客一般都采用大量的AJAX技术,例如,展现博客评论时,用Javascript代码异步加载;又如,博文的点击数和回复数等元数据一般也用Javascript异步加载。页面抓取软件MetaSeeker具有很强的AJAX内容抓取能力,可以处理很多复杂情况,然而,MetaSeeker的可选配置项也很多,一时难于全面掌握。在此,我们讲解一个抓取腾讯博客内容的实例,展示怎样抓取AJAX异步加载的博文点击数。

什么是以舆论疏导为目标的汽车舆情监测系统

互联网上孕育的社会性媒体(social media)的发展速度十分惊人,给社会生活各方面带来很大冲击,快速传播和广泛覆盖是传统媒体(例如,industrial media,或者,traditional media)和口口相传无法匹及的。所以,网络舆情监测的受关注度越来越高,当网络舆情监测需求延伸到商业领域后,雄厚商业资金和其它资源的投入促发舆情监测的爆炸性增长。

怎样提高抓取网站数据的速度

网站数据抓取软件MetaSeeker的设计理念跟其它网络爬虫有些不同,其中一个比较显著的区别是MetaSeeker将抓取到的某些网页地址URL永久保存,而且可以对其进行一些操作,例如,开放给在线版用户的操作有线索激活去活,还可以使用周期性抓取指令重建线索

怎样抓取跳转后的Web页面信息

网页跳转基本上可以分成两种情形

  • 利用HTTP消息的返回码和新网页地址进行跳转
  • 在目标网页HTML中实现跳转。

Web页面信息抓取软件工具包MetaSeeker并不关心哪种跳转方式,都能进行信息抓取。但是,跳转后网页URL实际上已经改变了,在操作MetaStudio时需要注意几点。

采集京东商城网站的产品信息的技巧

假设需要采集京东商城网站上的所有手机产品的信息,包括:商品名、价格、商品图片(MetaSeeker只采集图片网址)等信息。例如,样本网页:http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-1.html。

怎样用MetaSeeker抓取新浪评论

当前,一些大型社会性媒体(social media)网站(例如,博客、论坛、社交网)大量采用AJAX/Javascript,网页内容动态生成,而且同一个网页上的内容从多个信息源获得,这给网页信息抓取造成了障碍。下面以抓取新浪评论为例讲解怎样使用MetaSeeker抓取Ajax动态内容。现在,很多网站的新闻文章都允许评论,例如,新浪、搜狐、凤凰网等等,下面介绍的方法适用于其它类似网站。

用于商业舆情监控系统的观点词典建立方法

商业舆情监控平台SliceProfile实现了语句级观点分类和倾向性分析。实现观点分类的前提是建立观点词典。

观点词也叫极性词或情感词,英文可以是polar word, sentiment word, opinion word,在英语里面,极性词可以分成两类

举例说明什么是隐马尔科夫模型(HMM)

什么是隐马尔科夫模型(HMM)

维基百科对隐马尔可夫模型的定义:


隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

监控电子商务网站商品价格解决方案

近日接连做了多个电子商务网站上的商品信息的提取和数据挖掘解决方案,主要集中在:商品比价、竞争定价分析、销量分析等领域。近期,陆续将这些解决方案整理出来共享给读者,已经发布的解决方案有:

什么是启发式或探索法(heuristic)

名词解释

Heuristics,我喜欢的翻译是“探索法” ,而不是“启发式”,因为前者更亲民一些,容易被理解。另外,导致理解困难的一个原因是该词经常出现在一些本来就让人迷糊的专业领域语境中,例如,经常看到某某杀毒软件用启发式方法查毒,普通民众本来就对杀毒软件很敬畏,看到“启发式”就更摸不着北了。

实际上,这个词的解释十分简单,例如,查朗文词典,可以看到:

Syndicate content