决定系数公式详解，统计新手必学的5个计算实例

决定系数公式详解与5个计算实例

一、决定系数公式详解

决定系数，也称为R方值，是线性回归中用于衡量模型拟合优度的统计量。它表示模型解释的数据变异所占的比例。决定系数的值介于0和1之间，越接近1，说明模型的拟合效果越好。

决定系数公式为：

R^2 = 1 – (SSE/SST)

其中，SSE是残差平方和，SST是总平方和。

1. 残差平方和（SSE）：表示实际观测值与模型预测值之间的差的平方和。

2. 总平方和（SST）：表示因变量的总变异，即实际观测值与因变量均值的差的平方和。

二、5个计算实例

1. 实例一：简单线性回归

假设我们有一组数据（x，y），其中x是自变量，y是因变量。我们想要用x来预测y。

我们需要计算x和y的均值：

x_mean = (x1 + x2 + … + xn) / n

y_mean = (y1 + y2 + … + yn) / n

然后，计算x和y的协方差和相关系数：

cov(x, y) = Σ(xi – x_mean)(yi – y_mean) / (n-1)

r = cov(x, y) / (σxσy)

其中，σx和σy分别是x和y的标准差。

接着，使用最小二乘法计算回归系数：

b1 = r × (σy / σx)

b0 = y_mean – b1 × x_mean

使用决定系数公式计算R方值：

R^2 = 1 – (Σ(yi – (b0 + b1×xi))^2) / (Σ(yi – y_mean)^2)

2. 实例二：多元线性回归

在多元线性回归中，我们有多个自变量来预测一个因变量。

我们需要计算自变量矩阵X的均值向量X_mean和因变量向量y的均值y_mean。

然后，计算X的协方差矩阵：

Σ = (1/(n-1)) × (X – X_mean)’ × (X – X_mean)

接着，使用最小二乘法计算回归系数向量β：

β = Σ^(-1) × (X’ × (y – y_mean))

使用决定系数公式计算R方值：

R^2 = 1 – (Σ(yi – (β0 + β1×x1i + … + βk×xki))^2) / (Σ(yi – y_mean)^2)

3. 实例三：非线性回归

对于非线性回归，我们通常使用多项式回归或者其他形式的回归模型。

例如，多项式回归可以表示为：

y = b0 + b1×x + b2×x^2 + … + bk×x^k

我们可以使用最小二乘法来估计回归系数，然后使用决定系数公式计算R方值。

4. 实例四：逐步回归

逐步回归是一种用于选择重要变量的方法。

我们需要计算每个自变量与因变量的相关系数，并选择一些变量进入模型。

然后，使用最小二乘法计算回归系数，并使用决定系数公式计算R方值。

通过添加或删除变量来改进模型，直到达到最优的R方值。

5. 实例五：岭回归

岭回归是一种用于处理共线性问题的回归方法。

在岭回归中，我们添加了一个惩罚项来减少回归系数的幅度，从而防止过拟合。

我们可以使用岭回归来估计回归系数，并使用决定系数公式计算R方值。

以上五个实例涵盖了线性回归、多元线性回归、非线性回归、逐步回归和岭回归等不同类型的回归方法，以及如何使用决定系数公式来评估模型的拟合优度。这些实例对于统计新手来说非常有用，可以帮助他们理解回归分析和决定系数公式的应用。