百科知识

正态分布的期望和方差,详细讲解如何计算和应用这些统计量以便更好地理解数据分布规律

在上一篇文章中,我们探讨了离散型随机变量的概率分布,今天我们将转向另一个重要的领域——连续型随机变量的概率分布。

并非所有数据都具有连续性,数据的类型决定了我们求概率的方法。对于离散型随机变量,我们关注的是取某一个特定数值的概率;而对于连续型随机变量,我们则关注的是取某一个特定范围内的概率。

首先,我们需要了解一个核心概念:

概率密度函数

概率密度函数是用来描述连续型随机变量概率分布的工具,通常用函数f(x)表示。这个函数被称为概率密度函数。需要注意的是,概率密度本身并不是概率,而是一种表示概率的方法。因此,大家不要将其与概率混淆。概率密度函数曲线下的面积才表示概率。

概率密度函数下方的总面积始终为1,因为面积代表概率,而概率必须是一个完整的单位。

接下来,我们将介绍三种典型的连续型随机变量的概率分布

1. 正态分布

当随机变量X服从一个数学期望为μ、方差为σ^2的正态分布时,我们称其为正态分布,也称为高斯分布,通常记作:

标准正态分布

正态分布的图形是一个钟形曲线,曲线对称,中央部分的概率密度最大,而越往两边,概率密度逐渐减小。μ决定了曲线的中央位置,而σ则决定了曲线的分散程度。σ越大,曲线越平缓;σ越小,曲线越陡峭。

如何求正态分布的概率?

正态分布的概率密度函数满足:

连续型随机变量的理想模型就是正态分布,求正态分布的概率实际上就是求概率密度曲线下的面积。曲线的面积如何求呢?实际上,前人已经为我们总结了一套完整的概率对应表,我们只需直接使用这些表格即可。事实上,求正态分布下的概率是高中数学的知识点,但在现代,我们可以借助Excel、Python等工具直接进行计算,因此,学习手算的方法已经不再必要。

标准正态分布的意义在于,任何一个正态分布都可以通过线性变换转换为标准正态分布。

正态分布

许多实际问题都符合正态分布,例如身高、体重等。正态分布在质量管理中也得到了广泛应用,“3σ原则”就是在正态分布的原理上建立的。3σ原则具体内容如下:

  • 数值分布在(μ—σ,μ+σ)中的概率为0.6826
  • 数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
  • 数值分布在(μ—3σ,μ+3σ)中的概率为0.9974 因此可以认为,Y 的取值几乎全部集中在(μ—3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%,这是一个小概率事件,通常在一次试验中是不会发生的,一旦发生就可以认为质量出现了异常。

我们可以使用Python里的matplotlib库来绘制正态分布的图形

scipy.stats 是 scipy 专门用于统计的函数库,所有的统计函数都位于子包 scipy.stats 中

结果:

2. 均匀分布

均匀分布,也称为矩形分布,是指概率密度函数在结果区间内为固定数值的分布

均匀分布

它的概率密度函数为:

均匀分布在自然情况下极为罕见,同样来绘制一下均匀分布的图形

结果:

3. 指数分布

指数分布是描述泊松过程中事件之间时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。例如旅客进机场的时间间隔,以及许多电子产品的寿命分布一般都服从指数分布。

指数分布

其概率密度函数为:

指数分布具有无记忆的关键性质。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。用Python绘制指数分布的概率密度函数

结果: