上个故事《盖洛普抽样的成功——大小之争》 展示了大数据和小数据的PK,误差和偏差再次刺痛了我们大数据工作者的心。看今天的故事也许可以温暖一下我们受伤的心,数据及数据分析和分析师PK,让你找到勇士的感觉:数据分析只是我手中的剑而已。 《点球成金》(Moneyball)又是一例数据分析的经典故事: 长期以来,美国职业棒球队的教练们依赖惯例规则是,依据球员的“击球率(Batting Average, AVG)”(其值等于安打数/打数),来挑选心仪的球员。而奥克兰“运动家球队”的总经理比利·比恩(Billy Beane)却另辟新径,采用上垒率指标(On-Base Percentage, OBP)来挑选球员,OBP代表一个球员能够上垒而不是出局的能力。采用上垒率来选拔人才,并非毫无根据。通过精细的数学模型分析,比利·比恩 发现,高“上垒率”与比赛的胜负存在某种关联(correlation),据此他提出了自己的独到见解,即一个球员怎样上垒并不重要,不管他是地滚球还是三跑垒,只要结果是上垒就够了。在广泛的批评和质疑声中,比恩通过自己的数据分析,创立了“赛伯计量学”(Saber metrics)。 据此理论,比恩依据“高上垒率”选取了自己所需的球员,这些球员的身价远不如其他知名球员,但比利·比恩却能带领这些球员在2002年的美国联盟西部赛事中夺得冠军,并取得了20场连胜的战绩。 这个故事讲得是数量化分析和预测对棒球运动的贡献,吴甘沙先生认为,它在大数据背景下出现了传播的误区: 第一,它频繁出现在诸如舍恩伯格《大数据时代》之类的图书中,其实这个案例并非大数据案例,而是早已存在的数据思维和方法。在“点球成金”案例中的数据,套用大数据的4V特征,基本上,无一符合。 第二,《点球成金》无论是小说,还是拍出来的同名电影,都刻意或无意忽略了球探的作用。从读者/观众的角度来看,奥克兰“运动家球队”的总经理比利·比恩完全运用了数据量化分析取代了球探。而事实上,在运用这些数据量化工具的同时,比恩也增加了球探的费用,“军功章里”有数据分析的一半,也有球探的一半。 目前的大数据时代,就有这么两个流派,一派是技术主导派,他们提出“万物皆数”,要么数字化,要么死亡(孙正义在对日本企业界的演讲上所言),他们认为技术在决策中占有举足轻重地作用。另一派是技术为辅派,他们认为,技术仅仅是为人服务的,属于为人所用的众多工具的一种,不可夸大其作用。 针对《点球成金》这个案例,比利·比恩的拥趸者就属于“数据流党”,而更强调球探作用的则归属于“球探党”。 球探党Bill Shanks在其所著的《球探的荣耀:论打造王者之师的最勇敢之路》(Scout’s Honor: The Bravest Way To Build A Winning Ball-team)中,对数据流党的分析做出了强有力地回应。他认为,球探对运动员定性指标(如竞争性、抗压力、意志力,勤奋程度等)的衡量,是少数结构化数据(如上垒率等)指标无法量化刻画的。 和《点球成金》观点针锋相对的是,Bill Shanks更认可球探的作用,他把球探的作用命名为“勇士”哲学。对于勇士来说,数据分析只是众多“刀枪棍棒”兵刃中的一种,无需奉之如圭臬,真正能“攻城略地”的还是需要勇士。比如说,运动家棒球队虽然在数据分析的指导下,获得了震惊业界的好成绩,然而他们并没有取得季后赛的胜利,也没有夺取世界冠军,这说明,数据分析虽重要,但人的作用更重要! 从第01故事的分析中,我们知道,大数据分析的第一层作用就是,面向过去,发现潜藏在数据表面之下的历史规律或模式,也就是说达到描述性分析。而为了让读者相信数据分析的能力,灌输一些“心灵鸡汤(或称洗脑)”,是少不了的,哪怕它是假的! 下个故事:大数据预测得准吗? 全文:深度|十个段子反思大数据 |