信息提取

为市场营销采集和挖掘客户关系数据

客户数据经过适当挖掘就是宝贵的市场营销信息,例如,客户的电话、email地址等,可以直接用于电话营销和email营销,获得的客户信息越丰富则越适合作精准营销。总之,客户信息的采集和挖掘对任何商业组织来说都很重要。当前,越来越多的商业活动利用互联网媒介,同时越来越多的客户信息公布在web上,采用类似MetaSeeker这类网页信息抓取技术采集email、电话、地址信息十分重要。

企业竞争情报分析工具--Mozenda研究

企业竞争情报分析和报告系统是一个复杂的企业IT系统,而且根据不同企业的部署和使用目标,企业竞争情报系统需要数量可观的定制开发功能部件。但是,离不开两大基石:数据采集和数据挖掘

怎样设计网站信息采集方案

前面大部分博文是关于怎样用MetaSeeker完成网站信息采集任务,本文推荐一篇文章,关于新闻调查公司ProPublica怎样DIY网站信息采集方案。

网站采集解决方案Mozenda对比分析

网站采集解决方案Mozenda的界面比较美观和精致,操作流程与免费采集器MetaSeeker基本一致,Mozenda Agent Builder相当于MetaSeeker的MetaStudio,Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于:Mozenda的agents都运行在Mozenda的数据中心服务器上,所以采集结果也存在数据中心,可以通过下载或者邮件发送方式将数据拷贝到本地。

淘宝数据挖掘之数据魔方和情报通

一个朋友突然提起淘宝数据挖掘,并提到数据魔方情报通两款产品和服务。本人曾经帮一个朋友用通用网站数据采集软件MetaSeeker断断续续采集ebay近一年,知道在国外有个专业的服务领域:ebay mining,很多人在做,也有很多客户需求,所以做起来还是很有意思的。

怎样为企业竞争情报系统采集数据

企业竞争情报系统构成要素

根据《基于数据挖掘的企业竞争情报智能采集模型研究》,企业竞争情报系统定义如下:

为什么要消除量纲影响

消除量纲影响也叫无量纲化,根据《SPSS 聚类分析中数据无量纲化方法比较》,在多元统计分析中,各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。

微博的商业模式是对碎片化信息的重组过程

对微博的关注也有时日了,早期是对twitter的体验,然后就是为锐推的设计师的独到见解所触动,近期进入了务实时期:抓取微博信息建设舆情监控系统和商业情报挖掘系统,偶尔也帮朋友单纯地抓取信息,例如,抓取新浪微博的名人博客并持续跟踪监控,挖掘意见领袖等。但是,一直很少思考微博的商业模式问题。

如何获得ajax网页内容

AJAX网页内容的获得一直是网站采集器头疼的事,同样对搜索引擎的网络爬虫来说一样头疼。用AJAX生成和管理网页内容除了为了达到提高用户体验的目标外,一个重要的目标是保护网站上的内容,防止被搜索引擎索引或者被采集。搜索引擎处之泰然,既然不让搜就不搜,然而网站采集器需要克服这个困难。

MetaSeeker在数据挖掘科研教学领域的贡献

阅读了一篇第三届BiZ-WiZ杯华中地区大学生数学建模竞赛的优秀论文,参赛者使用MetaSeeker采集论坛信息,对论坛用户进行识别,识别出言论领袖、话题用户、活跃用户、关系圈等。该文被评为优秀论文,本人作为MetaSeeker的首席设计师,感到由衷的高兴。

Syndicate content