数据抽取

数据挖掘和常规数据分析的区别

摘自深入浅出谈数据挖掘

一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于:

  • 数据挖掘主要侧重解决四类问题:分类聚类关联预测
  • 而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计交叉报表假设检验等。

让我们来看两个例子对比:

参照MPQA思考怎样实现观点挖掘系统(opinion mining)

MPQA是一个语料库和观点识别系统(Corpus and Opinion Recogntion System)。根据其网页,该系统有下面几部分:

什么是词性标注(POS tagging)

词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。

维基百科对POS Tagging的定义:

有关情感分析和观点挖掘的几个概念

  • 情感和主观观点分类(sentiment and subjectivity classification):情感分析(sentiment analysis)就是一个文本分类(text classification)问题,主要有两个级别:
    • 文档级别的分类:含有主观观点的文章表达的是正面的还是负面的观点(positive or negative opinion),有个专用名词表示这一类sentiment classification或者document-level sentiment classification
    • 句子级别的分类:主要目的
      • 句子表述的意思是主观的还是客观的,表示这一类的专用名词:subjectivity cl

基于网络数据采集系统的社交媒体/网络营销

《社交媒体的“钱”途,企业拥有一套社交媒体营销战略的意义》一文向读者展示企业的网络营销战略正在转变,早期的网络营销主要以广告为载体,经历了三个阶段:

基于Facebook电子邮件email挖掘的市场调研分析

根据CNN科技新闻,Facebook最近进行了隐私策略调整,市场调研分析又增添了新手段:使用email(电子邮件)地址挖掘Facebook上的用户信息,获得极具价值的市场概况(marketing profiles)等商业情报信息,可以抓取的信息包括(受用户的隐私设置影响):名字、头像和其他图片、年龄、地区、兴趣、相片、消息板上的留言(wall posts)、朋友列表和名字,通过数据挖掘算法,可以扫描营销

网页内容抓取在市场营销调研分析领域的地位走势

Next Gen Market Research刚刚发布了一个调查报告概要,关于当前和今后使用的市场营销调研分析技术,数据挖掘及其相关技术仍然是最主流技术,下面两图引自原文


当前按重要性从高到低排序

比较实体提取/识别(entity extraction)API

看到某网友对比了多个实体识别/提取API,很有参考价值,摘录如下:

如何抓取AJAX动态页面

笔者已经发表过多篇述及AJAX动态页面抓取原理的文章,本文将进行一次总结,首先,下面是以前文章的汇总:

Syndicate content