人工智能之机器学习5-回归算法2【培训机构学习笔记】

server/2024/11/26 3:22:42/

培训班ppt内容:

个人精进总结:

可解释方差

定义

可解释方差的回归评分函数是一种用于评估回归模型性能的指标,以下从其定义、计算公式、取值范围及意义、应用场景等方面进行详细介绍:

可解释方差(Explained Variance)是指回归模型能够解释的因变量方差的比例,它反映了模型对数据中变异部分的捕捉能力。通过计算可解释方差,可以了解模型对数据的拟合程度以及预测结果的可靠性。

计算公式

设  y_{i}真实的观测值, \hat{y}_{i}回归模型的预测值, \bar{y}观测值的均值, n为样本数量,则可解释方差的计算公式为:ExplainedVariance = \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}

取值范围及意义

  • 取值范围:可解释方差的取值范围在0 到 1之间。
  • 意义解释
    • 当可解释方差为 1 时,表示回归模型能够完全解释因变量的方差,即预测值与真实值完全一致,模型的拟合效果完美
    • 当可解释方差为 0 时,说明模型完全无法解释因变量的方差,预测值完全是随机的,等同于使用均值来进行预测
    • 一般情况下,可解释方差越接近 1,模型的拟合效果越好,能够解释的数据变异部分越多,预测结果也就越可靠。

与其他回归评分函数的比较

  • 与均方误差(MSE)的比较:均方误差衡量的是预测值与真实值之间差异的平方的平均值,它侧重于评估预测值的准确性,但无法直接反映模型对数据变异的解释能力。而可解释方差则从数据变异的角度来评估模型,更关注模型对因变量波动的捕捉程度
  • 与决定系数(R^{2})的比较决定系数实际上就是可解释方差的一种特殊情况,二者在数值上是相等的。但在一些文献和应用中,可解释方差的概念更强调从方差解释的角度来理解模型的性能,而决定系数则更侧重于从拟合优度的角度来描述模型对数据的拟合程度

应用场景

  • 模型评估与选择:在比较不同的回归模型对同一组数据的拟合效果时,可解释方差可以作为一个重要的评估指标。通常情况下,可解释方差越高的模型,其对数据的拟合能力相对更强,更能捕捉到数据中的内在规律,从而可以帮助我们选择出性能更优的模型
  • 模型改进与优化:通过计算可解释方差,可以了解当前模型在解释数据变异方面的不足之处。如果可解释方差较低,可以进一步分析数据特征、调整模型结构或参数,以提高模型对数据的解释能力和预测精度
  • 数据理解与探索:可解释方差还可以帮助我们了解数据本身的特征和变异性。如果某个数据集的可解释方差普遍较低,可能意味着数据中存在较多的噪声或复杂的非线性关系,需要进一步对数据进行预处理或采用更复杂的模型来进行分析。

 R^2值

定义

R^{2}决定系数,是在回归分析中用于评估回归模型拟合优度的一个重要指标,其衡量的是回归模型对观测数据的拟合程度,它表示因变量的总变异中能够被自变量解释的比例。换句话说,R^{2}反映了模型能够在多大程度上解释因变量的变化

计算公式

设 y_{i} 为真实的观测值, \hat{y}_{i}回归模型的预测值,\bar{y}为观测值的均值,n为样本数量,则R^{2} 的计算公式为:

R^{2}= \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2} = 1- \frac{\sum_{i=1}^{n}({y}_{i}-\hat{y_{i}})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}

其中,分子部分\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2  表示回归平方和,即自变量对因变量变异的解释部分;分母部分 \sum_{i=1}^{n}(y_{i}-\bar{y})^2 表示总离差平方和,即因变量的总变异程度;\sum_{i=1}^{n}(y_{i}-\hat{y}_i)^2是残差平方和。

取值范围及意义

  • 取值范围: R^{2}值的取值范围在 0 到  1 之间。
  • 意义解释
    • R^{2}=1  时,表示回归模型完全拟合了观测数据,即所有观测点都恰好位于回归直线上,预测值与真实值完全一致,因变量的变异完全由自变量解释,模型的拟合效果达到最佳
    • 当 R^{2}=0 时,说明回归模型完全无法解释因变量的变异,预测值完全是随机的,等同于使用均值来进行预测,此时模型对数据的拟合没有任何意义。
    • 一般情况下,R^{2} 值越接近1,表明模型能够解释的因变量变异部分越多,模型对数据的拟合程度越好,预测结果也就越可靠。例如,R^{2}=0.8 表示模型能够解释80% 的因变量变异,还有20% 的变异无法被模型解释。

与其他指标的比较

  • 与均方误差(MSE)的比较:MSE 衡量的是预测值与真实值之间差异的平方的平均值,它侧重于评估预测值的准确性,数值越小表示预测误差越小。而 R^{2} 值则从整体拟合优度的角度来评估模型,更关注模型对因变量变异的解释比例,二者从不同的角度反映了回归模型的性能。
  • 与可解释方差的比较:实际上,R^{2} 值与可解释方差在数值上是相等的,二者本质上是同一概念的不同表述方式。可解释方差更强调从方差解释的角度来理解模型的性能,而 R^{2} 值更侧重于从拟合优度的角度来描述模型对数据的拟合程度。

应用场景

  • 模型评估与比较:在建立多个不同的回归模型对同一组数据进行拟合时,可以通过比较它们的  值来选择最优的模型。通常情况下, R^{2}值越高的模型,其对数据的拟合效果相对更好,更能捕捉到数据中的内在规律,从而为模型的选择提供依据。
  • 模型解释能力评估: R^{2}值能够直观地反映出回归模型对因变量变异的解释程度,帮助我们了解自变量对因变量的影响程度。较高的 R^{2}值意味着模型能够较好地解释因变量的变化,说明我们所选取的自变量对因变量具有较强的解释能力。
  • 模型改进方向指导:如果R^{2} 值较低,说明模型对数据的拟合效果不理想,存在较大的改进空间。此时,可以进一步分析数据特征、增加自变量、改进模型结构或采用更复杂的模型等方法来提高R^{2} 值,从而提升模型的性能。


http://www.ppmy.cn/server/144972.html

相关文章

Linux常见的指令及shell外壳程序的理解

文章内容 1:date指令及时间戳的概念 2:find/which/whereis指令 3:grep指令(行文本过滤工具) 4:head与tail指令 5:shell外壳程序 1:date指令 date:以英文的方式打印出日期与时间 date %Y:%m:%d-%H:%M:%S 格式化的打印出日期与时间,中间的:可以改变. 时间戳:从1970年1月1日0:00(…

贪心算法(2)

目录 K次取反后最大化的数组和 题解: 代码: 按身高排序(田忌赛马的预备) 题解: 代码: 方法一: 方法二: 优势洗牌(田忌赛马) 题解: 代…

Java技术分享

剖析equals方法 1、对于Object来说,其equals()方法底层实现就是"",都是比较对象的引用是否相等,下为JDK源码。 Object c 1; Object d 1; boolean equals c.equals(d);public boolean equals(Object obj) {return (this obj);…

【v5lite】调用onnx推理

前言一、主线程二、推理线程thred_nms(非极大值抑制阈值)的作用thred_cond(置信度阈值)的作用三、串口线程总览@改善版本总结前言 跟着博主导入的加以修改的,反正v5lite的版本要是1.4版本的,不然容易出现错误! 后面再去把博主的博文导进来 树莓派4B运行yolov5lite转onn…

java实现小程序接口返回Base64图片

文章目录 引言I java 接口返回Base64图片接口设计获取验证码图片-base64字符串获取验证码图片-二进制流arraybufferII 小程序端代码过期代码: 显示文件流图片(arraybuffer)知识扩展:微信小程序下载后端返回的文件流引言 场景: 图形验证码 背景: 接口返回arraybuffer的格式…

Linux应用编程(C语言编译过程)

目录 1. 举例 2.预处理 2.1 预处理命令 2.2 .i文件内容解读 3.编译 4.汇编 5.链接 5.1 链接方式 5.1.1 静态链接 5.1.2 动态链接 5.1.3 混合链接 1. 举例 Linux的C语言开发,一般选择GCC工具链进行编译,通过下面的例子来演示GCC如何使用&#…

大语言模型---RewardBench 介绍;RewardBench 的主要功能;适用场景

文章目录 1. RewardBench 介绍2. RewardBench 的主要功能3. 适用场景 1. RewardBench 介绍 RewardBench: Evaluating Reward Models是一个专门用于评估 Reward Models(奖励模型) 的公开平台,旨在衡量模型在多种任务上的性能,包括…

Rust 力扣 - 2266. 统计打字方案数

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 这题可以先求按了多少次相同连续的按钮,所有的连续相同按钮表示的方案数的乘积就是本题答案 我们的关键问题就转换成了按n个连续相同按钮表示的方案数 设f(i)表示按i个连续相同按钮表示的方案数 如…