线性回归损失函数的推导

ops/2024/10/15 22:07:24/

要推导损失函数公式 $\ell(\boldsymbol{\theta}) = \frac{1}{2n}(\hat{\boldsymbol{y}} - \boldsymbol{y})^\top(\hat{\boldsymbol{y}} - \boldsymbol{y})$ ，我们可以从几个基础概念开始。

1. 基本概念

预测值 $\hat{\boldsymbol{y}}$ ：由模型（例如线性回归模型）输出的预测结果。
真实值 $\boldsymbol{y}$ ：数据集中真实的目标变量值。
损失函数：衡量预测值与真实值之间差距的函数，用于评估模型的性能。

2. 欧几里得距离的平方

损失函数通常使用欧几里得距离来度量预测值与真实值之间的差异。欧几里得距离是两点之间的距离，可以用平方差表示。具体来说，对于所有的样本 (i)（1 到 (n)），我们有：

$d_i = \hat{y}_i - y_i$

平方差为：

$d_i^2 = (\hat{y}_i - y_i)^2$

3. 总损失的计算

对于 (n) 个样本，整体的损失可以表示为所有样本的平方差之和，并取平均值：

$\ell(\boldsymbol{\theta}) = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$

4. 矩阵表示

我们可以将上面的公式用向量和矩阵的形式表达。设：

$\hat{\boldsymbol{y}} = [\hat{y}_1, \hat{y}_2, \ldots, \hat{y}_n]^\top$ 为预测值的列向量。
$\boldsymbol{y} = [y_1, y_2, \ldots, y_n]^\top$ 为真实值的列向量。

则预测值与真实值之间的差异 $\hat{\boldsymbol{y}} - \boldsymbol{y}$ 也可以用向量表示：

$\hat{\boldsymbol{y}} - \boldsymbol{y}$
接下来，整体损失可以重新表示为：

$\ell(\boldsymbol{\theta}) = \frac{1}{n} \left(\hat{\boldsymbol{y}} - \boldsymbol{y}\right)^\top \left(\hat{\boldsymbol{y}} - \boldsymbol{y}\right)$

5. 引入 $\frac{1}{2}$

为了使梯度更新计算更简便，损失函数常常会乘以 $\frac{1}{2}$ ，这样在计算梯度时，平方根被消除。这导致我们的损失函数变为：

$\ell(\boldsymbol{\theta}) = \frac{1}{2n} \left(\hat{\boldsymbol{y}} - \boldsymbol{y}\right)^\top \left(\hat{\boldsymbol{y}} - \boldsymbol{y}\right)$

6. 最终损失函数

最终，我们得到的损失函数为：

$\ell(\boldsymbol{\theta}) = \frac{1}{2n}(\hat{\boldsymbol{y}} - \boldsymbol{y})^\top(\hat{\boldsymbol{y}} - \boldsymbol{y})$

总结

此损失函数是均方误差损失的一种形式，广泛应用于线性回归等模型中。通过这种方式，我们既可以有效地表示损失，也可以在模型优化时更容易计算梯度。