所谓“仁者见仁,智者见智”,大数据作为新生科技,会迷茫,会悲观,然而这向来是机会所在。这个系列故事开始几个还算容易牵动读者去思考探索,从上个故事《大数据的问题06:大数据预测得准吗?》开始,会让更多持怀疑态度者加入到质疑和嘲笑大数据的行列来。这次讲的故事更加颠覆。 啤酒和尿布:经典故事是伪造的,你知道吗? 这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。 上面这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》,在这个案例中,要情节有情节,要数据,有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:案例是编造的 这个经典的“啤酒和尿布” (Beer and Diapers)的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则(Association Rule)”的概念,更是“居家旅行,必备之良药(周星驰语)”。当前,基本上所有讲大数据应用,都会捎带讲上这个经典案例,要求大家多研究“相关性”,少研究因果关系!但实在扫兴的是,这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽,但信不得! 实践是检验真理的唯一标准。如果这个故事是真的,按理说,应该给超级市场以无限启发才对,可实际上,不管是中国,还是在美国,在超市里面观察一下,就会发现,根本没有类似的物品摆放,相近的都很少。 故事性强,事出有因。据吴甘沙先生透露,它是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过,感兴趣的读者可以自己参阅文献。但公平地讲,这个故事对数据挖掘的普及意义重大,仅从教育意义上看,仍不失为一个好故事。 相关性并非什么大事 即便真的有这个案例,也不说明数据分析出来的“相关性”,有什么特别的神奇之处。舍恩伯格教授的《大数据时代》核心观点之一就是:趾高气扬的因果关系光芒不再,卑微的相关关系将被“翻身做主人”,知道“是什么”就够了,没必要知道“为什么”。但需要我们更为深入了解的事实是: “要相关,不要因果”,这个观点其实并非舍恩伯格首先提出的。最早的提出者应为《连线》(Wired)主编Chris Anderson ,2008年他在题为 “理论的终结:数据洪流让科学方法依然过时(End of Theory: the Data Deluge Makes the Scientific Method Obsolete)” 文章中,率先提出:在PB时代,我们可以说,有相关性足够了(Petabytes allow us to say: "Correlation is enough)"。 “要相关,不要因果”的观点,并不受学术界待见。甚至,《大数据时代》的中文版翻译者周涛亦在序言里说,“放弃对因果关系的追求,是人类的堕落”。对于这个观点,李国杰院士认为:在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了“相关性”背后的理由,才是新知识或新发现。 大数据分析的第二个功能,或者说更为核心的功能在于,预测。预测主要用于对未来进行筹划,大到产业的布局,小到流感的预警,均可用预测。但是对未来的预测,能准吗? 全文:深度|十个段子反思大数据 |