用概率理论求解实际问题,可以总结出来一个套路,这里面最关键的是step 1和step 2。 step 1: Define the experiment; step 2: List the simple events。 面对一个问题,最关键的是把握住:要观察什么,并且列出来所有可能的观察到的outcomes,也叫simple events,形成一个sample space(样本空间)。如果观察什么没有抓住,所有计算就会算错了。 例如:experiment是“抛两枚硬币”,这个sample space很简单,一下子就列出来了。如果问“只含有一个head的relative frequency,那就把灰色背景的两个simple event的概率加在一起就行了 但是,实际中的experiment会比较复杂,比如,在一个生产线上,抽查10个产品,计算出现1个废品、2个废品、3个废品...10个废品的概率。列出来所有simple events并画个sample space图就太难了,所以就要用上counting方法,就是排列、组合、级数等等来计数。同时,给样本空间中的每种情况一个编号(就像抛硬币的例子,HH, HT...)也太多了,所以就出现了random variable(随机变量)这个词,代表各种simple events。 10个产品含有y个废品这个实验,观察到的其中一个simple event可能是这样的: XXOXXXOXOX,其中O就是废品,那么这就是一个排列问题。例如,10个中有3个废品的排列,10个中有y个废品的排列。随机变量就是Y。 离散概率分布基本上就是围绕这个XXOXXXOXOX来讨论的,有几种主要的分布,是为了刻画不同experiment的。 1,如果是n个产品中有y个废品的概率,那么这个概率分布就是二项概率分布(binomial probability distribution) 2,如果是等到第y个废品出现的时候,等了多少个产品,那么就是负二项概率分布(negative binomial probability distribution) 3,如果是等到第一个废品出现的时候,等了多少个产品。其实就是两个废品之间有多少个产品,那么就是几何概率分布(geometric probability distribution) 有人画了一个图(参看原图),我学着画了一遍,记在笔记本上了。 还有一些情况,这些模型都不够用,就出现了Poisson Probability Distribution。 Mendenhall和Sincich写的《统计学》(Statistics for Engineering and the Sciences)在4.10节说了:这个模型是观察单位时间、面积、体积等等内的数量。要知道时间这些对象是可以无限细分的,可以是天、小时、分钟、秒、毫秒等等,对应于binomial probability distribution情况,看起来就是Bernoulli trials的次数n趋向于无穷了,那么这里面y个 O 的数量会不会就是很大很大,甚至无限大呢?所以《统计学》说了:只适应于rare events。二项分布的期望值是E(Y) = np,当n很大很大,期望值依然是有限的值,可见p有多小,所以是rare events。 《从投硬币到泊松分布》这篇文章以观察宝宝出生为例讲解为什么要用泊松概率分布模型,因为,在这里每个 X O 相当于“一个时间单位中是否有宝宝出生”,比如,一秒之内都有可能一个以上宝宝出生,所以,还要继续细分,每个时间单位要么是X,表示没有宝宝出生,要么是O,表示有宝宝出生,细分到足够细,不要在同一个时间单位有一个以上宝宝出生。但是,理论上是说,需要无穷细。就成了Poisson Probability Distribution |