
当我开始我的数据科学之旅,首个算法我探索的是线性回归。
在理解了线性回归的概念及其工作原理后,我迫不及待地开始用它进行问题陈述的预测。相信大多数人也会这样做。建模之后的关键步骤是什么呢?
下一步的关键在于模型的性能评估。毫无疑问,模型评估是一项至关重要的任务,因为它突显了模型的不足之处。
选择最合适的评价指标是关键任务之一。在我的研究中,我遇到了两个重要的评价指标:除了常见的MAE/MSE/RMSE之外,还有R方和调整R方。这两个指标有什么区别?我应该选择使用哪一个?
R方和调整R方是评估数据科学的两个重要指标,对于任何追求数据科学的人来说,都可能会让他们感到困惑。
这两个指标在评估回归问题中都具有重要性,接下来我们将深入理解并比较它们。它们各有特点,我们将在下文中详细讨论。
首先来谈谈残差平方和。为了更好地理解这些概念,我们将通过一个简单的回归问题来举例说明。假设我们试图根据“投入的学习时间”来预测“获得的分数”。学习时间是我们的自变量,而考试成绩是我们的因变量或目标变量。
我们可以绘制一个回归图来可视化这些数据,其中黄点代表数据点,蓝线则是我们的预测回归线。如你所见,我们的回归模型并不能完美地预测所有的数据点。
那么,我们如何利用这些数据来评估回归线的预测效果呢?我们可以从确定数据点的残差开始。数据中某一点的残差是实际值与线性回归模型预测值之间的差值。
残差图告诉我们回归模型是否适合数据。残差的平方实际上是回归模型优化的目标函数。利用残差值,我们可以确定残差的平方和,也称为RSS(残差平方和)。
RSS值越低,说明模型预测值越准确。换句话说,如果回归线使RSS值最小化,那么这条回归线就是最佳拟合线。
RSS有一个缺陷——它是一个尺度变量统计。由于RSS是实际值和预测值平方差的总和,该值取决于目标变量的大小。
为了解决这个问题,我们引入了R方统计量。R方是一种尺度不变的统计量,它表示线性回归模型解释的目标变量的变化比例。
为了更好地理解R方统计量,我们需要知道目标变量的总变化是实际值与其平均值之差的平方和,即TSS(总平方和)。R方统计量通过比较TSS和RSS来衡量模型解释的目标变化比例。
当TSS给出Y的总变化量时,RSS给出未被X解释的Y的变化量。TSS减去RSS给出了被我们的模型解释的Y的变化部分。我们将这个值除以TSS,就得到了R方统计量。
R方统计量的值始终介于0和1之间。值越高,说明模型解释的变化越多。如果RSS值很低,意味着回归线非常接近实际点,自变量解释了目标变量的大部分变化,这将给我们一个高的R方值。相反,如果RSS值很高,则说明自变量无法解释目标变量中的大部分变化,R方值会相应较低。
R方统计量并不是完美的。即使我们在数据中添加冗余变量,R方的值也可能不会减少。这意味着我们在模型中添加新的变量时,可能无法确定是否增加了模型的拟合度。这就是调整R方的作用所在。
调整R方考虑了用于预测目标变量的自变量数量。通过这个指标,我们可以确定在模型中添加新的变量是否真的增加了模型的拟合度。当我们在模型中增加一个新的自变量但R方值没有显著增加时,调整R方值可能会下降。相反,如果R方值显著增加,那么调整R方值也会增加。
当我们有多个自变量时,最好使用调整R方来比较具有不同数量自变量的模型。这样可以帮助我们确定哪些自变量真正有助于预测回归问题的输出。
