数据抽取 | GooSeeker

数据抽取

数据挖掘和常规数据分析的区别

Tue, 04/13/2010 - 18:19 — Fuller

摘自深入浅出谈数据挖掘

一般来说，比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于：

数据挖掘主要侧重解决四类问题：分类、聚类、关联、预测，
而常规数据分析则侧重于解决除此之外的其他数据分析问题：如描述性统计、交叉报表、假设检验等。

让我们来看两个例子对比：

Fuller's blog
Login to post comments
Read more

参照MPQA思考怎样实现观点挖掘系统（opinion mining）

Tue, 04/13/2010 - 14:33 — Fuller

MPQA是一个语料库和观点识别系统（Corpus and Opinion Recogntion System）。根据其网页，该系统有下面几部分：

Fuller's blog
Login to post comments
Read more

什么是词性标注（POS tagging）

Tue, 04/13/2010 - 10:36 — Fuller

词性标注也叫词类标注，POS tagging是part-of-speech tagging的缩写。

维基百科对POS Tagging的定义：

Fuller's blog
Login to post comments
Read more

文本分类概念、算法和开源软件

Fri, 04/09/2010 - 21:14 — Fuller

摘录自文本分类与聚类(text categorization and clustering)

Fuller's blog
Login to post comments
Read more

有关情感分析和观点挖掘的几个概念

Tue, 04/06/2010 - 19:13 — Fuller

情感和主观观点分类(sentiment and subjectivity classification)：情感分析（sentiment analysis）就是一个文本分类（text classification）问题，主要有两个级别：
- 文档级别的分类：含有主观观点的文章表达的是正面的还是负面的观点（positive or negative opinion），有个专用名词表示这一类sentiment classification或者document-level sentiment classification
- 句子级别的分类：主要目的
  - 句子表述的意思是主观的还是客观的，表示这一类的专用名词：subjectivity cl

基于网络数据采集系统的社交媒体/网络营销

Mon, 01/11/2010 - 22:13 — Fuller

《社交媒体的“钱”途，企业拥有一套社交媒体营销战略的意义》一文向读者展示企业的网络营销战略正在转变，早期的网络营销主要以广告为载体，经历了三个阶段：

Fuller's blog
Login to post comments
Read more

基于Facebook电子邮件email挖掘的市场调研分析

Thu, 01/07/2010 - 10:05 — Fuller

根据CNN科技新闻，Facebook最近进行了隐私策略调整，市场调研分析又增添了新手段：使用email（电子邮件）地址挖掘Facebook上的用户信息，获得极具价值的市场概况（marketing profiles）等商业情报信息，可以抓取的信息包括（受用户的隐私设置影响）：名字、头像和其他图片、年龄、地区、兴趣、相片、消息板上的留言（wall posts）、朋友列表和名字，通过数据挖掘算法，可以扫描营销

Fuller's blog
Login to post comments
Read more

网页内容抓取在市场营销调研分析领域的地位走势

Tue, 01/05/2010 - 10:18 — Fuller

Next Gen Market Research刚刚发布了一个调查报告概要，关于当前和今后使用的市场营销调研分析技术，数据挖掘及其相关技术仍然是最主流技术，下面两图引自原文

当前按重要性从高到低排序

Fuller's blog
Login to post comments
Read more

比较实体提取/识别(entity extraction)API

Mon, 01/04/2010 - 09:56 — Fuller

看到某网友对比了多个实体识别/提取API，很有参考价值，摘录如下：

Fuller's blog
Login to post comments
Read more

如何抓取AJAX动态页面

Sat, 12/26/2009 - 12:51 — Fuller

笔者已经发表过多篇述及AJAX动态页面抓取原理的文章，本文将进行一次总结，首先，下面是以前文章的汇总：

Fuller's blog
Login to post comments
Read more