大数据的全面爆发,以及大数据分析技术的不断进化,如今大数据已经成为炙手可热的名词。在国内,虽然对大数据的分析和研发投入了较大的力度,但对数据的深入挖掘和商业价值应用还远远落后于美国,中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段,但是美国已经跨越“舆情分析”和“情感分析”,进入了“预测分析”阶段。 美国数据分析科学家、前北卡大学夏洛特分校助理教授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO,Derek Wang(王晓宇)博士就大数据的发展以及“预测分析”技术和传统的大数据分析的差异发表了自己的看法(原文参见《美国数据科学家带你看看大数据的未来》)。下面摘录几点感想—— 大数据一词的追溯“从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。” 不知是否经得起考证,可能是真的,那个年代或更早,SGI被多少搞数学计算的人所敬仰啊,曾经看他们展示图形工作站,都看傻了。该文对目前国内外的大数据研究重点做了对比,而决定下一代大数据产业的新技术:“预测分析”,值得数据科学家们去关注。 大数据时代就是人的时代“大数据时代就是人的时代,数据形态越来越丰富和多样。除去社交网站等传统数据点以外, 新形态的数据点也已经出现,比如Airbnb和Uber这种O2O服务。” 在这里“大数据”和“人”联系在一起,让我想起来与国内第一个大数据国家重点实验室的老师交流的时候,他说:严格地说,GooSeeker从网络上采集数据进行挖掘,那不是大数据,是小数据,真正的大数据是人的行为产生的数据。而如何将有限的数据发挥无限的价值,在现今获取人的行为数据的局限上是应当思考的。 垂直创新的工具“人们在进行大数据分析时使用的工具将更加细化,利用垂直创新的工具进行非常纵深的研究将成为主流。” 关于这点,该文所用笔墨较多,也是我感触较深的,去年与某银行总行的数据研究科学家讨论的时候,让我感到惊讶他自己写程序做用户行为分析,我说为什么不用SPSS,SAS,R等等,他给我展现他能熟练地使用所有这些工具,但这些是不够的,一个数据科学家需要能解答特定问题的最适合的模型,而那些常用商用软件中的模型只是普通的常用的固化下来的模型,看起来能解决很多问题,但是不能最适合地解决某个实际问题。 几个重要概念该文提到
然后与代表大数据分析的“预测分析”一一对比。 “Clickstream分析技术的实现,是通过不同的cookie,来追踪人们的点击,它无法解决的是冷启动过程中数据的缺乏。比如你第一次登陆优酷,没有任何观看记录,系统应该怎么进行推荐呢?而且,人们的误点击操作很有可能就被系统追踪下来,进行了错误的分析。” 冷启动常常被我借来用,但同时我也告诉做视频网站、应用市场、电商平台的朋友,用GooSeeker采集数据首先得解决冷启动问题,不然推荐算法再好也白搭,你可以爬别人网站上的推荐关系,但是要先有个基础数据集启动起来。 预测分析和用户洞察看的出来汪博士所说都来自实践,所以充满亮点,关于预测分析这块,我认为汪博士说的是一个更广义的概念,例如,《结合分析原理及手机用户期望分析应用》和《从“艾森豪威尔法则”到手机属性改进》,以及《中端手机消费者态度研究》都可纳入到这个范畴,要远远超出严谨的数据挖掘书籍定义的预测分析范畴。 追究是否严格和是否宽泛的意义不大,还是要看是否有商用价值,这也是该文多处提到的国内与海外的差距所在。 |