Blogs

腾讯博客AJAX页面抓取技术讲解

目前,大型博客一般都采用大量的AJAX技术,例如,展现博客评论时,用Javascript代码异步加载;又如,博文的点击数和回复数等元数据一般也用Javascript异步加载。页面抓取软件MetaSeeker具有很强的AJAX内容抓取能力,可以处理很多复杂情况,然而,MetaSeeker的可选配置项也很多,一时难于全面掌握。在此,我们讲解一个抓取腾讯博客内容的实例,展示怎样抓取AJAX异步加载的博文点击数。

什么是以舆论疏导为目标的汽车舆情监测系统

互联网上孕育的社会性媒体(social media)的发展速度十分惊人,给社会生活各方面带来很大冲击,快速传播和广泛覆盖是传统媒体(例如,industrial media,或者,traditional media)和口口相传无法匹及的。所以,网络舆情监测的受关注度越来越高,当网络舆情监测需求延伸到商业领域后,雄厚商业资金和其它资源的投入促发舆情监测的爆炸性增长。

怎样提高抓取网站数据的速度

网站数据抓取软件MetaSeeker的设计理念跟其它网络爬虫有些不同,其中一个比较显著的区别是MetaSeeker将抓取到的某些网页地址URL永久保存,而且可以对其进行一些操作,例如,开放给在线版用户的操作有线索激活去活,还可以使用周期性抓取指令重建线索

怎样抓取跳转后的Web页面信息

网页跳转基本上可以分成两种情形

  • 利用HTTP消息的返回码和新网页地址进行跳转
  • 在目标网页HTML中实现跳转。

Web页面信息抓取软件工具包MetaSeeker并不关心哪种跳转方式,都能进行信息抓取。但是,跳转后网页URL实际上已经改变了,在操作MetaStudio时需要注意几点。

采集京东商城网站的产品信息的技巧

假设需要采集京东商城网站上的所有手机产品的信息,包括:商品名、价格、商品图片(MetaSeeker只采集图片网址)等信息。例如,样本网页:http://www.360buy.com/products/652-653-655-0-0-0-0-0-0-0-1-1-1.html。

怎样用MetaSeeker抓取新浪评论

当前,一些大型社会性媒体(social media)网站(例如,博客、论坛、社交网)大量采用AJAX/Javascript,网页内容动态生成,而且同一个网页上的内容从多个信息源获得,这给网页信息抓取造成了障碍。下面以抓取新浪评论为例讲解怎样使用MetaSeeker抓取Ajax动态内容。现在,很多网站的新闻文章都允许评论,例如,新浪、搜狐、凤凰网等等,下面介绍的方法适用于其它类似网站。

用于商业舆情监控系统的观点词典建立方法

商业舆情监控平台SliceProfile实现了语句级观点分类和倾向性分析。实现观点分类的前提是建立观点词典。

观点词也叫极性词或情感词,英文可以是polar word, sentiment word, opinion word,在英语里面,极性词可以分成两类

MySQL存储过程和函数的区别

MySQL的存储过程(stored procedure)和函数(stored function)统称为stored routines,是否应该采用存储过程在文章Business Logic: To Store or not to Store that is the Question?中进行了详细分析和讨论。存储过程和函数的区别的简要说明参见Stored procedure vs. function

why?

I don't Know it is HOW to use!

举例说明什么是隐马尔科夫模型(HMM)

什么是隐马尔科夫模型(HMM)

维基百科对隐马尔可夫模型的定义:


隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

Syndicate content