网站采集解决方案Mozenda的界面比较美观和精致,操作流程与免费采集器MetaSeeker基本一致,Mozenda Agent Builder相当于MetaSeeker的MetaStudio,Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于:Mozenda的agents都运行在Mozenda的数据中心服务器上,所以采集结果也存在数据中心,可以通过下载或者邮件发送方式将数据拷贝到本地。
网站采集解决方案Mozenda的界面比较美观和精致,操作流程与免费采集器MetaSeeker基本一致,Mozenda Agent Builder相当于MetaSeeker的MetaStudio,Mozenda Agent Console相当于MetaSeeker的DataScraper。与MetaSeeker最大的不同在于:Mozenda的agents都运行在Mozenda的数据中心服务器上,所以采集结果也存在数据中心,可以通过下载或者邮件发送方式将数据拷贝到本地。
一个朋友突然提起淘宝数据挖掘,并提到数据魔方和情报通两款产品和服务。本人曾经帮一个朋友用通用网站数据采集软件MetaSeeker断断续续采集ebay近一年,知道在国外有个专业的服务领域:ebay mining,很多人在做,也有很多客户需求,所以做起来还是很有意思的。
根据《基于数据挖掘的企业竞争情报智能采集模型研究》,企业竞争情报系统定义如下:
消除量纲影响也叫无量纲化,根据《SPSS 聚类分析中数据无量纲化方法比较》,在多元统计分析中,各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。
对微博的关注也有时日了,早期是对twitter的体验,然后就是为锐推的设计师的独到见解所触动,近期进入了务实时期:抓取微博信息建设舆情监控系统和商业情报挖掘系统,偶尔也帮朋友单纯地抓取信息,例如,抓取新浪微博的名人博客并持续跟踪监控,挖掘意见领袖等。但是,一直很少思考微博的商业模式问题。
AJAX网页内容的获得一直是网站采集器头疼的事,同样对搜索引擎的网络爬虫来说一样头疼。用AJAX生成和管理网页内容除了为了达到提高用户体验的目标外,一个重要的目标是保护网站上的内容,防止被搜索引擎索引或者被采集。搜索引擎处之泰然,既然不让搜就不搜,然而网站采集器需要克服这个困难。
阅读了一篇第三届BiZ-WiZ杯华中地区大学生数学建模竞赛的优秀论文,参赛者使用MetaSeeker采集论坛信息,对论坛用户进行识别,识别出言论领袖、话题用户、活跃用户、关系圈等。该文被评为优秀论文,本人作为MetaSeeker的首席设计师,感到由衷的高兴。
在建设商品比价系统或者监测网络商城商品价格时,需要及时地采集最新的商品价格,尤其做价格监测竞争情报系统时,监测的频度要求很高。网站信息采集软件工具包MetaSeeker以精准采集著称,很适合做竞争情报采集系统,因此多个企业用户采用MetaSeeker建设商品比价和价格监测系统。
相对于其他社会性媒体,微博虽然很年轻,但是发展十分迅猛,近期接连发生的重大事件,例如华为接班人事件和蒙牛诽谤门事件都是由微博引爆的。因此凡是忽视微博采集和跟踪的网络舆情监测系统都有全面性缺陷。