【漫话机器学习系列】153.残差平方和（Residual Sum of Squares, RSS）

残差平方和（RSS）：机器学习中的误差衡量指标

在机器学习和统计建模中，衡量模型的拟合优劣是一个重要问题。残差平方和（Residual Sum of Squares, RSS）是一个常用的误差度量方法，它衡量了模型预测值与真实值之间的偏差。本文将深入解析残差平方和的定义、数学表达、计算方式、作用以及在实际应用中的意义。

1. 残差平方和的定义

残差平方和（RSS）是所有样本点的误差平方之和，它衡量了模型对数据的拟合程度。具体来说，误差（Residual）指的是模型预测值 yi^\hat{y_i}yi^ 与真实值 yiy_iyi 之间的差距，即：

$e_i = y_i - \hat{y_i}$

RSS 则是所有这些误差的平方和：

$RSS = \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

其中：

$y_i$ 表示第 i 个观测样本的真实值（Ground Truth）。
$\hat{y_i}$ 表示第 i 个观测样本的预测值（Predicted Value）。
n 是总的数据样本数量。

2. 数学解析：为什么要平方误差？

在误差计算中，我们可以选择不同的度量方式，比如直接相加误差或取绝对值。然而，RSS 选择的是平方和，其原因如下：

消除正负抵消的影响
如果直接相加误差 $\sum (y_i - \hat{y_i})$ ，正误差和负误差会相互抵消，无法真实反映模型的拟合误差情况。平方可以确保所有误差都是正值，从而有效衡量整体误差。
强调大误差
由于平方的性质，较大的误差（远离真实值的预测点）会被赋予更高的权重。例如：
$1^2 + 2^2 + 3^2 = 1 + 4 + 9 = 14$
这里较大的误差 3 被放大得更多，使得 RSS 对于预测误差较大的点更加敏感。这有助于优化模型时减少大误差，提高模型的整体稳定性。
数学可微性
RSS 具有良好的数学性质，例如可微性，可以方便地进行梯度下降优化。在机器学习和深度学习的优化过程中，使用平方误差能够使目标函数光滑，便于求导和最小化。

3. 计算示例

假设我们有 5 个数据点，其真实值 yyy 和预测值 y^\hat{y}y^ 如下：

样本	真实值 $y_i$	预测值 $\hat{y_i}$	误差 $y_i - \hat{y_i}$	误差平方 $(y_i - \hat{y_i})^2$
1	3.0	2.5	0.5	0.25
2	4.5	4.0	0.5	0.25
3	2.0	3.0	-1.0	1.00
4	6.0	5.5	0.5	0.25
5	5.0	4.0	1.0	1.00

计算 RSS：

$RSS = 0.25 + 0.25 + 1.00 + 0.25 + 1.00 = 2.75$

这个值越小，说明模型预测值越接近真实值，即拟合效果越好。

4. 作用与应用

4.1 线性回归中的应用

在最小二乘法（Ordinary Least Squares, OLS）中，我们的目标是找到一组回归系数，使得残差平方和最小，即：

$\min_{\beta} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

这保证了找到的回归线能够最好地拟合数据。

4.2 机器学习中的损失函数

在机器学习的回归问题中，均方误差（MSE, Mean Squared Error）就是 RSS 归一化的版本：

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

MSE 被广泛用于回归问题的损失函数，因为它继承了 RSS 的数学性质，并且平均化误差，使其不受样本数影响。

4.3 统计学中的拟合度评估

在统计学中，RSS 还用于计算决定系数 $R^2$ ，衡量模型的解释能力：

$R^2 = 1 - \frac{RSS}{TSS}$

其中 TSS（Total Sum of Squares）是总平方和，衡量数据的总变异性。 $R^2$ 越接近 1，表示模型对数据的解释能力越强。

5. 局限性

尽管 RSS 是一个常用的误差度量方法，但它也有一些局限性：

对异常值敏感
由于 RSS 会放大较大的误差，数据集中如果存在异常值（outliers），会极大影响 RSS 的大小，导致模型可能过度拟合这些异常值。
不能直接比较不同数据集
RSS 受样本数量影响，数据集规模不同会导致 RSS 值不同。因此，在不同数据集间比较时，通常使用 MSE 或 RMSE（均方根误差）来进行归一化处理。

6. 结论

残差平方和（RSS）是机器学习和统计建模中的核心指标之一。它衡量模型预测值与真实值之间的差距，并被广泛用于回归问题的优化。通过平方误差，RSS 既避免了误差的正负抵消问题，又增强了对大误差的敏感性。然而，它也有对异常值敏感等缺点，因此在实际应用中常与其他指标（如 MSE、RMSE、R²）配合使用，以提供更全面的模型评估。