综合百科

深入解析期望与方差公式,助你轻松掌握统计核心概念

在概率论的研究领域中,不同的随机变量遵循特定的分布规律,这些规律不仅揭示了变量的内在特性,还为未来的趋势预测提供了科学依据。

本文将围绕以下主题展开论述:

· 引言部分

· 高斯/正态分布(Gaussian/Normal Distribution)的深入探讨

· 二项分布(Binomial Distribution)的原理与应用

· 伯努利分布(Bernoulli Distribution)的独特点评

· 对数正态分布(Log Normal Distribution)的数学特性

· 幂律分布(Power Law Distribution)的独特之处

· 分布函数在实践中的应用场景

在概率论的框架下,每一次实验的结果都可以通过随机变量来量化。以投掷六面骰子为例,我们期待的结果是集合{1,2,3,4,5,6}中的任意一个数。因此,我们定义随机变量X,使其在每次投掷时取上述值。

随机变量的取值可以是离散的,也可以是连续的,这取决于实验的性质。投掷骰子的例子中,X是离散型随机变量,因为它只能取有限个整数值。然而,如果我们考虑某城市房屋的价格,相关的随机变量将取连续值,如550000美元、1200523.54美元等。

通过绘制随机变量的期望值与实验出现频率的关系图,我们可以得到频率分布图,通常表现为直方图。利用核密度估计方法对直方图进行平滑处理,可以得到一条光滑的曲线,这条曲线被称为分布函数。

橙色平滑曲线代表概率分布曲线

高斯/正态分布是一种连续型概率分布函数,其特点是随机变量在均值(μ)和方差(σ²)附近呈现对称分布。

高斯分布函数

均值(μ):决定分布峰值在X轴上的位置。所有数据都对称地分布在X=μ的两侧。如图所示,蓝色、红色和黄色曲线分布在X=0的两侧,而绿色曲线的中心位于X=-2。通过观察这些曲线,我们可以直观地判断,蓝色、红色和黄色的均值是0,而绿色的均值是-2。

方差(σ²):决定分布曲线的宽度和高度。方差是标准差的平方。图中展示了四条曲线的σ²值。我们可以直观地发现,黄色曲线的高度最低。

当μ=0且σ=1时,这种特殊的正态分布被称为标准正态分布或标准正态变量,其一般表达式为:

标准正态分布函数

分母的作用是确保正态分布曲线下的面积恒等于1。

正态分布提供了许多有用的数据分割信息。以下图为例:

正态分布的值分割图

如图所示,从平均值右移一个标准差,分布包含了34.1%的总质量;从平均值右移两个标准偏差,则为49.8%。由于曲线的对称性,这一规律在两侧都成立。

因此,如果我们知道某数据服从正态分布,例如城镇人口的体重,我们可以轻松地估计出许多值,而无需进行广泛的实际分析。这就是正态分布的强大之处。

二项分布的名称中包含”Bi”,这代表实验的两种可能结果:成功或失败,或者1或0。最简单地说,这是一种描述多次重复实验及其概率的分布,其中预期结果要么是”成功”,要么是”失败”。

二项分布

从图像上可以看出,它是一种离散型概率分布函数。主要参数为n(试验次数)和p(成功概率)。

假设我们有一个事件成功的概率p,那么失败的概率是(1-p),假设你重复实验n次(试验次数=n)。那么在n个独立的伯努利试验中获得k个成功的概率是:

二项分布函数

其中k属于范围[0,n],并且:

现在我们思考一个简单的问题。假设印度和澳大利亚之间正在进行板球比赛。Rohit Sharma已经得到了151分,根据你的经验,你知道150分之后,Rohit有0.3分的概率达到6分。这是最后一节了,你父亲问你Rohit有多大的机会能打4个全垒打。那你怎么判断呢?

这是一个典型的二项试验的例子。所以,解决办法是:

注:大括号中的6和4是6C4,它是6个球中4个全垒打的可能组合。

在二项分布中,我们有一个特殊的例子叫做伯努利分布,其中n=1,这意味着在这个二项实验中只进行了一次试验。当我们把n=1放入二项PMF(概率质量函数)中时,nCk等于1,函数变成:

伯努利分布PMF

式中,k={0,1}。

现在我们来看看印度队对澳大利亚队的比赛。假设当Rohit达到100分(a ton),那么印度获胜的几率是0.7。所以你可以简单地告诉你父亲印度有70%的机会赢了。

我们已经了解了正态分布的性质,乍一看,许多人会说,对数正态曲线在某种程度上也让我们看到了正态分布是右偏态的。

假设有一个随机变量X服从对数正态分布,均值=μ,方差=σ²。X有总共n个可能值(x1,x2,x3…..xn)。现在取所有X值的自然对数,并创建一个新的随机变量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。这个随机变量Y是正态分布的。

换句话说,如果存在正态分布Y,并且我们取它的指数函数X=exp(Y),那么X将遵循对数正态分布。

它还具有与高斯函数相同的参数:均值(μ)和方差(σ²)。

幂律是两个量之间的关系,其中一个量的变化将成比例地改变另一个量。它遵循一个80-20法则:在前20%的值中,我们可以找到大约80%的质量密度。如图所示,稍暗的左侧部分为质量的80%,右侧亮黄色部分为20%。

当概率分布遵循幂律时,我们称之为帕累托分布。帕累托分布由两个参数控制:xm不是平均值,α不是σ。)现在我们可以在图像中看到,所有四条曲线的峰值都位于x=1。所以,我们可以说对于图中的所有曲线,x_m=1。随着α的增加,峰值也会上升,在α趋于无穷大的极端情况下,曲线仅转变为一条垂直线。这叫做Diracδ函数。随着α的减小,曲线变得更加平缓。

帕累托分布PMF

如果我们知道一个特定的数据遵循一定的分布特征,那么我们可以采取部分样本,找到所涉及的参数,然后可以绘制出概率分布函数来解决许多问题。例如:在一个有10万人口的城镇,我们必须做身高分析,但我们不能对这么多人口进行调查。因此,我们选取一个随机样本,求出样本均值和样本标准差。现在假设一位医生或专家告诉我们身高服从正态分布。这样我们就可以轻松地回答许多问题了。

deephub翻译组:Oliver Lee