【漫话机器学习系列】153.残差平方和(Residual Sum of Squares, RSS)

devtools/2025/3/29 6:02:39/

残差平方和(RSS):机器学习中的误差衡量指标

机器学习和统计建模中,衡量模型的拟合优劣是一个重要问题。残差平方和(Residual Sum of Squares, RSS)是一个常用的误差度量方法,它衡量了模型预测值与真实值之间的偏差。本文将深入解析残差平方和的定义、数学表达、计算方式、作用以及在实际应用中的意义。


1. 残差平方和的定义

残差平方和(RSS)是所有样本点的误差平方之和,它衡量了模型对数据的拟合程度。具体来说,误差(Residual)指的是模型预测值 yi^\hat{y_i}yi​^​ 与真实值 yiy_iyi​ 之间的差距,即:

e_i = y_i - \hat{y_i}

RSS 则是所有这些误差的平方和:

RSS = \sum_{i=1}^{n} (y_i - \hat{y_i})^2

其中:

  • y_i​ 表示第 i 个观测样本的真实值(Ground Truth)。

  • \hat{y_i} 表示第 i 个观测样本的预测值(Predicted Value)。

  • n 是总的数据样本数量。


2. 数学解析:为什么要平方误差?

在误差计算中,我们可以选择不同的度量方式,比如直接相加误差或取绝对值。然而,RSS 选择的是平方和,其原因如下:

  1. 消除正负抵消的影响
    如果直接相加误差 \sum (y_i - \hat{y_i}),正误差和负误差会相互抵消,无法真实反映模型的拟合误差情况。平方可以确保所有误差都是正值,从而有效衡量整体误差。

  2. 强调大误差
    由于平方的性质,较大的误差(远离真实值的预测点)会被赋予更高的权重。例如:

    1^2 + 2^2 + 3^2 = 1 + 4 + 9 = 14

    这里较大的误差 3 被放大得更多,使得 RSS 对于预测误差较大的点更加敏感。这有助于优化模型时减少大误差,提高模型的整体稳定性。

  3. 数学可微性
    RSS 具有良好的数学性质,例如可微性,可以方便地进行梯度下降优化。在机器学习和深度学习的优化过程中,使用平方误差能够使目标函数光滑,便于求导和最小化。


3. 计算示例

假设我们有 5 个数据点,其真实值 yyy 和预测值 y^\hat{y}y^​ 如下:

样本真实值 y_i预测值 \hat{y_i}误差 y_i - \hat{y_i}误差平方 (y_i - \hat{y_i})^2
13.02.50.50.25
24.54.00.50.25
32.03.0-1.01.00
46.05.50.50.25
55.04.01.01.00

计算 RSS:

RSS = 0.25 + 0.25 + 1.00 + 0.25 + 1.00 = 2.75

这个值越小,说明模型预测值越接近真实值,即拟合效果越好。


4. 作用与应用

4.1 线性回归中的应用

最小二乘法(Ordinary Least Squares, OLS)中,我们的目标是找到一组回归系数,使得残差平方和最小,即:

\min_{\beta} \sum_{i=1}^{n} (y_i - \hat{y_i})^2

这保证了找到的回归线能够最好地拟合数据。

4.2 机器学习中的损失函数

机器学习的回归问题中,均方误差(MSE, Mean Squared Error)就是 RSS 归一化的版本:

MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2

MSE 被广泛用于回归问题的损失函数,因为它继承了 RSS 的数学性质,并且平均化误差,使其不受样本数影响。

4.3 统计学中的拟合度评估

在统计学中,RSS 还用于计算决定系数 R^2,衡量模型的解释能力:

R^2 = 1 - \frac{RSS}{TSS}

其中 TSS(Total Sum of Squares)是总平方和,衡量数据的总变异性。R^2 越接近 1,表示模型对数据的解释能力越强。


5. 局限性

尽管 RSS 是一个常用的误差度量方法,但它也有一些局限性:

  1. 对异常值敏感
    由于 RSS 会放大较大的误差,数据集中如果存在异常值(outliers),会极大影响 RSS 的大小,导致模型可能过度拟合这些异常值。

  2. 不能直接比较不同数据集
    RSS 受样本数量影响,数据集规模不同会导致 RSS 值不同。因此,在不同数据集间比较时,通常使用 MSE 或 RMSE(均方根误差)来进行归一化处理。


6. 结论

残差平方和(RSS)是机器学习和统计建模中的核心指标之一。它衡量模型预测值与真实值之间的差距,并被广泛用于回归问题的优化。通过平方误差,RSS 既避免了误差的正负抵消问题,又增强了对大误差的敏感性。然而,它也有对异常值敏感等缺点,因此在实际应用中常与其他指标(如 MSE、RMSE、R²)配合使用,以提供更全面的模型评估。


http://www.ppmy.cn/devtools/171256.html

相关文章

关于大模型中Prompt这一概念小记

大模型中的提示词(Prompt)深入解析 1. 什么是 Prompt? Prompt(提示词)是用户与大模型(如 ChatGPT、GPT-4、Gemini、Claude)交互时输入的指令、问题或文本片段。它引导模型生成符合用户需求的输…

基于Spring Boot的售楼管理系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

python多线程和多进程的区别有哪些

python多线程和多进程的区别有七种: 1、多线程可以共享全局变量,多进程不能。 2、多线程中,所有子线程的进程号相同;多进程中,不同的子进程进程号不同。 3、线程共享内存空间;进程的内存是独立的。 4、同一…

【redis】主从复制:全量复制、部分复制、实时复制详解

文章目录 全量复制无硬盘模式runId 部分复制积压缓冲区 实时复制总结回顾 全量复制 从节点主动找主节点进行复制 从节点发送 psync 命令给主节点进行数据同步,由于是第一次进行复制,从节点没有主节点的 replicationid(运行 id) 和…

【蓝桥杯每日一题】3.20

🏝️专栏: 【蓝桥杯备篇】 🌅主页: f狐o狸x “蓝桥杯是编程成人礼——那些崩溃的深夜,终将变成你碾压题海的底气” 今天我们来点有意思的算法:前缀和 前缀和与差分的核⼼思想是预处理,可以在暴…

ETL:数据清洗、规范化和聚合的重要性

在当今这个数据呈爆炸式增长的时代,数据已成为企业最为宝贵的资产之一。然而,数据的海量增长也伴随着诸多问题,如数据来源多样、结构复杂以及质量问题等,这些问题严重阻碍了数据的有效处理与深度分析。在此背景下,ETL&…

LeetCode hot 100 每日一题(14)——54.螺旋矩阵

这是一道难度为中等的题目&#xff0c;让我们来看看题目描述&#xff1a; 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 提示&#xff1a; m matrix.lengthn matrix[i].length1 < m, n < 10-100 < matr…

Qemu-STM32(十):STM32F103开篇

简介 本系列博客主要描述了STM32F103的qemu模拟器实现&#xff0c;进行该项目的原因有两点: 作者在高铁上&#xff0c;想在STM32F103上验证一个软件框架时&#xff0c;如果此时掏出开发板&#xff0c;然后接一堆的线&#xff0c;旁边的人估计会投来异样的目光&#xff0c;特别…