上一个故事《大数据的问题02:颠簸的街道——“n=All”只是一个幻觉?》 展现了全数据梦想及其数据偏差问题,让我们感受到:“n=All”,梦想很丰满,但现实很骨感!那么,大数据背后的价值到底在哪? 园中有金不在金——大数据的价值 人们在描述大数据时,通常表明其具备4个V特征,即4个以V为首字母的英文描述: 1)Volume(体量大)、 2)Variety(模态多)、 3)Velocity(速度快)及 4)Value(价值大)。 前三个V,本质上,是为第四个V服务的。试想一下,如果大数据里没有我们希望得到的价值,我们为何还辛辛苦苦这么折腾前3个V? 英特尔中国研究院院长吴甘沙先生说,“鉴于大数据信息密度低,大数据是贫矿,投入产出比不见得好。”《纽约时报》著名科技记者Steve Lohr,在其采访报道“大数据时代(The Age of Big Data)”中表明,大数据价值挖掘的风险还在于,会有很多的“误报”发现,用斯坦福大学统计学教授Trevor Hastie的话来说,就是 “在数据的大干草垛中,发现有意义的“针”,其困难在于“很多干草看起来也像针(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)” 针对大数据的价值,李国杰院士借助中国传统的寓言故事《园中有金》,从另外一个角度,说明大数据的价值,寓言故事是这样的: 有父子二人,居山村,营果园。父病后,子不勤耕作,园渐荒芜。一日,父病危,谓子曰:园中有金。子翻地寻金,无所得,甚怅然。是年秋,园中葡萄、苹果之属皆大丰收。子始悟父言之理。 人们总是期望,能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为,实际上,大数据的价值,主要体现在它的驱动效应上,大数据对经济的贡献,并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。 大数据是典型的通用技术,理解通用技术的价值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己酿造的蜂蜜,而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果,没有蜜蜂的一份功劳? 回到前文的小故事,儿子翻地的价值,不仅在于翻到园中的金子,更是在于翻地之后,促进了秋天果园的丰收。在第一个小故事中,醉汉黑暗中寻找的钥匙,亦非最终的价值,通过钥匙打开的门才是。 对于大数据研究而言,一旦数据收集、存储、分析、传输等能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,也极大地推动了诸如计算机软硬件、数据分析等行业的发展,大数据的价值也已逐步体现。 李国杰院士认为,我们不必天天期盼奇迹出现,多做一些“朴实无华”的事,实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士,应保持清醒的头脑:无华是常态,精彩是无华的质变。 如果把“大数据”比作农夫父子院后的那片土地,那么土地的面积越大,会不会能挖掘出的“金子”就越多呢?答案还真不是,下面的故事我们说说大数据的大小之争。 全文:深度|十个段子反思大数据 |