百科知识

Poisson分布,这个统计模型在日常生活中有哪些实际应用场景

  • 一个特定的情境

气象预报显示即将迎来一场大暴雨,这场天气让你感到不安,预想到城市将会陷入严重的交通拥堵。交通拥堵的根源在于城市排水系统无法有效处理积水,而积水问题又归咎于下水系统的局限性。

然而,市政部门给出的解释是,城市下水道系统按照五十年一遇的标准进行建设的,这是一个非常高的标准,但此次暴雨的强度超出了预期。

但是,连续两年的洪水泛滥似乎表明,所谓的五十年一遇可能只是一个虚假的承诺。

如果市政部门的解释是真实的,那么我们可以进一步探讨泊松分布的概念。

  • 泊松分布的公式及其含义

首先,我们需要明确问题的背景:五十年一遇意味着在非常长的时间范围内,这种级别的暴雨平均每50年发生一次。然而,问题并不在于是否每隔50年就会发生一次,因为实际情况可能是在200年间只发生一次,前四年发生一次,之后的196年则没有发生。

真正的问题是,尽管我们知道五十年一遇是长期整体概率,但我们更关心的是在任意一段有限的时间内,比如5年内,发生一次大暴雨的概率是多少?发生两次大暴雨的概率是多少?发生三次或四次大暴雨的概率又是多少?我们想要知道任何特定次数大暴雨发生的概率。

这个问题可以抽象为:如果我们知道一个随机事件的发生概率符合正态分布,那么在特定的时间或空间间隔内,这个随机事件发生的次数的概率分布是什么?我们不是在求整体发生率,而是在求发生次数的概率。

大数学家泊松发现了这个公式:

泊松分布的公式

用语言描述就是:随机事件发生K次的概率等于lambda的k次方除以k的阶乘,再乘以自然底数e的负lambda次方。据说这个公式可以进入最美数学公司的排行榜前十名。

lambda:是整体概率与所解决问题的匹配度对应的数值,这个数值会随着问题的变化而变化。整体概率是50年一次,即1/50。如果我们想知道接下来50年内的暴雨次数的概率分布,那么lambda就是1。如果我们想知道100年内的概率分布,那么lambda就是1/50*100,即2。如果是5年,那么lambda就是1/50*5,即0.1。

如果k=0,那么接下来50年内,1次暴雨不发生的概率是公式计算后的37%;k=1,概率也是37%;k=2,概率是18%。

接下来我们关心的是:50年内发生2次及以上的“50年一遇”大暴雨的概率是多少?也就是1减去发生0次的概率和发生1次的概率,即1减去37%,再减去37%,答案是26%。

从这个角度来看,市政部门的解释似乎是合理的。

  • 泊松分布的数学特性

数学特性一:泊松分布是正态分布的一种微观视角,可以说是正态分布的另一种表现形式。

如果我们不断计算各种事件间隔和大暴雨不同发生次数的概率,并将这些数据绘制成图表,泊松分布的曲线就会越来越接近正态分布。分别计算50年、100年、200年、300年发生“50年一遇”暴雨的情形,看起来就像正态分布。

数学特性二:泊松分布的间隔具有无记忆性。

不是说泊松分布本身是无记忆的,而是指泊松分布的间隔具有无记忆性。无记忆性是指之前的情况对之后的情况没有影响,即前一间隔中随机事件是否发生对后一间隔中随机事件是否发生没有影响。在大暴雨这个例子中,如果去年发生了一次大暴雨,那么今年发生大暴雨的概率是否会受到影响?直觉上,我们可能会认为去年发生了一次,接下来不会发生了,但实际上,它们是相互独立的。

  • 开启统计推断的大门

统计推断是什么意思?

如果我们城市在两年内都发生了大暴雨,这并不是一个小概率事件,那么我们城市的建设就没有问题,问题在于我们缺乏足够的数据。我们没有1000年的降雨资料,即使有1000年,数据也很少。因此,我们需要换一种思路。

物理学家在研究放射性物质的半衰期时,并不是盯着一个原子看,因为时间太长了,数据太少,一个完整的半衰期都没有。怎么办?他们假设半衰期服从正态分布,那么如何验证呢?(半衰期服从正态分布,完全理解不了啊)

他们找一堆原子,统计一下在几个确定的时间间隔内,这堆原子发生了多少次衰变。只要这个数字服从泊松分布,反过来就证明原子的衰变服从正态分布。

–是不是很难理解。恩,我也觉得。统计数据和概率论中概率分布的结合。

概率研究是未发生的随机事件,统计描述已发生的现实。最开始只有描述统计,没有推断统计,泊松分布开启了推断统计的大门。

  • 写在最后的话

其实难点在于还是不全面,很多概念其实没有理清楚,现在回想一下,到底什么是随机了?