统计学中的二项分布、负二项分布、几何分布、泊松分布有什么关系 ... ...

2021-2-18 11:35| 发布者: Fuller| 查看: 5754| 评论: 0

摘要: 用概率理论求解实际问题,可以总结出来一个套路,这里面最关键的是step 1和step 2。step 1: Define the experiment;step 2: List the simple events。面对一个问题,最关键的是把握住:要观察什么,并且列出来所有可 ...

用概率理论求解实际问题,可以总结出来一个套路,这里面最关键的是step 1和step 2。

step 1: Define the experiment; 

step 2: List the simple events。

面对一个问题,最关键的是把握住:要观察什么,并且列出来所有可能的观察到的outcomes,也叫simple events,形成一个sample space(样本空间)。如果观察什么没有抓住,所有计算就会算错了。

例如:experiment是“抛两枚硬币”,这个sample space很简单,一下子就列出来了。如果问“只含有一个head的relative frequency,那就把灰色背景的两个simple event的概率加在一起就行了

但是,实际中的experiment会比较复杂,比如,在一个生产线上,抽查10个产品,计算出现1个废品、2个废品、3个废品...10个废品的概率。列出来所有simple events并画个sample space图就太难了,所以就要用上counting方法,就是排列、组合、级数等等来计数。同时,给样本空间中的每种情况一个编号(就像抛硬币的例子,HH, HT...)也太多了,所以就出现了random variable(随机变量)这个词,代表各种simple events。

10个产品含有y个废品这个实验,观察到的其中一个simple event可能是这样的: XXOXXXOXOX,其中O就是废品,那么这就是一个排列问题。例如,10个中有3个废品的排列,10个中有y个废品的排列。随机变量就是Y。

离散概率分布基本上就是围绕这个XXOXXXOXOX来讨论的,有几种主要的分布,是为了刻画不同experiment的。

1,如果是n个产品中有y个废品的概率,那么这个概率分布就是二项概率分布(binomial probability distribution)

2,如果是等到第y个废品出现的时候,等了多少个产品,那么就是负二项概率分布(negative binomial probability distribution)

3,如果是等到第一个废品出现的时候,等了多少个产品。其实就是两个废品之间有多少个产品,那么就是几何概率分布(geometric probability distribution)

有人画了一个图(参看原图),我学着画了一遍,记在笔记本上了。

还有一些情况,这些模型都不够用,就出现了Poisson Probability Distribution。

Mendenhall和Sincich写的《统计学》(Statistics for Engineering and the Sciences)在4.10节说了:这个模型是观察单位时间、面积、体积等等内的数量。要知道时间这些对象是可以无限细分的,可以是天、小时、分钟、秒、毫秒等等,对应于binomial probability distribution情况,看起来就是Bernoulli trials的次数n趋向于无穷了,那么这里面y个 O 的数量会不会就是很大很大,甚至无限大呢?所以《统计学》说了:只适应于rare events。二项分布的期望值是E(Y) = np,当n很大很大,期望值依然是有限的值,可见p有多小,所以是rare events。

从投硬币到泊松分布》这篇文章以观察宝宝出生为例讲解为什么要用泊松概率分布模型,因为,在这里每个 X O 相当于“一个时间单位中是否有宝宝出生”,比如,一秒之内都有可能一个以上宝宝出生,所以,还要继续细分,每个时间单位要么是X,表示没有宝宝出生,要么是O,表示有宝宝出生,细分到足够细,不要在同一个时间单位有一个以上宝宝出生。但是,理论上是说,需要无穷细。就成了Poisson Probability Distribution


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-29 14:53