更多CFA教材详解,请关注我们的“边际实验室”公众号
线性回归模型的假设详解
在前一篇文章中,我们探讨了如何描述线性回归模型中的系数。现在,让我们深入探讨这个模型的统计假设。设因变量Y和自变量X各有n个观测值,我们希望对以下公式进行估计:
Yi = b0 + b1Xi + εi,其中i介于1至n之间。
为了确保从单变量线性回归模型中得出有效结论,我们必须遵循经典线性回归模型假设的六个要点。
第一,因变量Y与自变量X之间的关系是线性的。这意味着b0和b1的乘积关系仅限于一阶,并且它们之间不涉及其他变量的乘除操作。自变量X可以不止涉及一阶。
第二,自变量X不是随机选取的。这保证了数据的可靠性和有效性。
第三,残差的期望值为零。这意味着残差在统计上没有系统性的偏差。
第四,所有观察值的残差方差保持一致。这确保了回归模型的稳定性。
第五,残差ε与观测值之间没有相关性。这意味着残差之间不存在任何干扰回归模型的信息。
第六,残差遵循正态分布。这是模型推断和假设检验的基础。
我们将进一步对上述假设进行分析和探讨。
第一个假设对线性回归模型至关重要。如果自变量和因变量之间的关系是非线性的,那么使用线性回归模型将无法得到准确的结果。尽管如此,即使因变量是非线性的,只要参数是线性的,线性回归模型仍然可以适用。
假设二和三确保了b0和b1的估计值是正确的。这两个假设在模型中起着至关重要的作用。
第四、五和六个假设则帮助我们确定^b0和^b1的分布情况,并检验这些系数是否具有特定的值。特别是同方差假设(即假设4),它对于正确估计参数的方差至关重要。在多元回归课程中,我们将深入探讨如何处理不满足这些假设的情况。
线性回归的标准误解读
线性回归模型有时能很好地描述两个变量之间的关系,但有时却不能。为了使回归分析更加有效,我们需要区分这两种情况。接下来,我们将探讨衡量线性回归模型中因变量和自变量关系紧密程度的统计方法。
让我们通过一个实例来理解标准误的概念。以下是一张图表,展示了从1990年1月至2017年12月标准普尔500指数月收益率与每月通胀率的散点图及其拟合回归线。在这张图中,我们可以看到实际观察值与拟合后的回归线之间存在较大的偏离。如果使用估计的回归方程来预测每月的股票收益,可能会导致结果不准确。
回归模型的标准误是对这种不确定性的衡量。它类似于单个变量的标准差,但测量的是回归残差(即εi)的标准差。
具有单自变量的线性回归模型的标准误(SEE)的计算公式如下...
让我们通过一个具体案例来计算估计的标准误。
在之前的案例中,我们估计了通胀率和货币供应增长率的回归方程为Yi = –0.0008 + 0.3341Xi。下面是我们计算标准误所需的数据...
较小的标准误意味着预测结果更加准确。我们将在后续的讲解中进一步探讨如何利用这一信息来确定根据货币供应量增长预测通胀率结果的置信区间。