人工智能之机器学习5-回归算法2【培训机构学习笔记】

ops/2024/11/23 4:17:18/

培训班ppt内容:

个人精进总结:

可解释方差

定义

可解释方差的回归评分函数是一种用于评估回归模型性能的指标,以下从其定义、计算公式、取值范围及意义、应用场景等方面进行详细介绍:

可解释方差(Explained Variance)是指回归模型能够解释的因变量方差的比例,它反映了模型对数据中变异部分的捕捉能力。通过计算可解释方差,可以了解模型对数据的拟合程度以及预测结果的可靠性。

计算公式

设  y_{i}真实的观测值, \hat{y}_{i}回归模型的预测值, \bar{y}观测值的均值, n为样本数量,则可解释方差的计算公式为:ExplainedVariance = \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}

取值范围及意义

  • 取值范围:可解释方差的取值范围在0 到 1之间。
  • 意义解释
    • 当可解释方差为 1 时,表示回归模型能够完全解释因变量的方差,即预测值与真实值完全一致,模型的拟合效果完美
    • 当可解释方差为 0 时,说明模型完全无法解释因变量的方差,预测值完全是随机的,等同于使用均值来进行预测
    • 一般情况下,可解释方差越接近 1,模型的拟合效果越好,能够解释的数据变异部分越多,预测结果也就越可靠。

与其他回归评分函数的比较

  • 与均方误差(MSE)的比较:均方误差衡量的是预测值与真实值之间差异的平方的平均值,它侧重于评估预测值的准确性,但无法直接反映模型对数据变异的解释能力。而可解释方差则从数据变异的角度来评估模型,更关注模型对因变量波动的捕捉程度
  • 与决定系数(R^{2})的比较决定系数实际上就是可解释方差的一种特殊情况,二者在数值上是相等的。但在一些文献和应用中,可解释方差的概念更强调从方差解释的角度来理解模型的性能,而决定系数则更侧重于从拟合优度的角度来描述模型对数据的拟合程度

应用场景

  • 模型评估与选择:在比较不同的回归模型对同一组数据的拟合效果时,可解释方差可以作为一个重要的评估指标。通常情况下,可解释方差越高的模型,其对数据的拟合能力相对更强,更能捕捉到数据中的内在规律,从而可以帮助我们选择出性能更优的模型
  • 模型改进与优化:通过计算可解释方差,可以了解当前模型在解释数据变异方面的不足之处。如果可解释方差较低,可以进一步分析数据特征、调整模型结构或参数,以提高模型对数据的解释能力和预测精度
  • 数据理解与探索:可解释方差还可以帮助我们了解数据本身的特征和变异性。如果某个数据集的可解释方差普遍较低,可能意味着数据中存在较多的噪声或复杂的非线性关系,需要进一步对数据进行预处理或采用更复杂的模型来进行分析。

 R^2值

定义

R^{2}决定系数,是在回归分析中用于评估回归模型拟合优度的一个重要指标,其衡量的是回归模型对观测数据的拟合程度,它表示因变量的总变异中能够被自变量解释的比例。换句话说,R^{2}反映了模型能够在多大程度上解释因变量的变化

计算公式

设 y_{i} 为真实的观测值, \hat{y}_{i}回归模型的预测值,\bar{y}为观测值的均值,n为样本数量,则R^{2} 的计算公式为:

R^{2}= \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2} = 1- \frac{\sum_{i=1}^{n}({y}_{i}-\hat{y_{i}})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}

其中,分子部分\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2  表示回归平方和,即自变量对因变量变异的解释部分;分母部分 \sum_{i=1}^{n}(y_{i}-\bar{y})^2 表示总离差平方和,即因变量的总变异程度;\sum_{i=1}^{n}(y_{i}-\hat{y}_i)^2是残差平方和。

取值范围及意义

  • 取值范围: R^{2}值的取值范围在 0 到  1 之间。
  • 意义解释
    • R^{2}=1  时,表示回归模型完全拟合了观测数据,即所有观测点都恰好位于回归直线上,预测值与真实值完全一致,因变量的变异完全由自变量解释,模型的拟合效果达到最佳
    • 当 R^{2}=0 时,说明回归模型完全无法解释因变量的变异,预测值完全是随机的,等同于使用均值来进行预测,此时模型对数据的拟合没有任何意义。
    • 一般情况下,R^{2} 值越接近1,表明模型能够解释的因变量变异部分越多,模型对数据的拟合程度越好,预测结果也就越可靠。例如,R^{2}=0.8 表示模型能够解释80% 的因变量变异,还有20% 的变异无法被模型解释。

与其他指标的比较

  • 与均方误差(MSE)的比较:MSE 衡量的是预测值与真实值之间差异的平方的平均值,它侧重于评估预测值的准确性,数值越小表示预测误差越小。而 R^{2} 值则从整体拟合优度的角度来评估模型,更关注模型对因变量变异的解释比例,二者从不同的角度反映了回归模型的性能。
  • 与可解释方差的比较:实际上,R^{2} 值与可解释方差在数值上是相等的,二者本质上是同一概念的不同表述方式。可解释方差更强调从方差解释的角度来理解模型的性能,而 R^{2} 值更侧重于从拟合优度的角度来描述模型对数据的拟合程度。

应用场景

  • 模型评估与比较:在建立多个不同的回归模型对同一组数据进行拟合时,可以通过比较它们的  值来选择最优的模型。通常情况下, R^{2}值越高的模型,其对数据的拟合效果相对更好,更能捕捉到数据中的内在规律,从而为模型的选择提供依据。
  • 模型解释能力评估: R^{2}值能够直观地反映出回归模型对因变量变异的解释程度,帮助我们了解自变量对因变量的影响程度。较高的 R^{2}值意味着模型能够较好地解释因变量的变化,说明我们所选取的自变量对因变量具有较强的解释能力。
  • 模型改进方向指导:如果R^{2} 值较低,说明模型对数据的拟合效果不理想,存在较大的改进空间。此时,可以进一步分析数据特征、增加自变量、改进模型结构或采用更复杂的模型等方法来提高R^{2} 值,从而提升模型的性能。


http://www.ppmy.cn/ops/135981.html

相关文章

docker 容器的生命周期

使用 docker run 命令启动一个容器时,如果系统关机或者容器被设置为自动清理(即使没有使用 --rm 标志),容器的生命周期将取决于几个因素: 系统关机: 如果宿主机在容器运行时突然关机或重启,Dock…

Node.js 23 发布了!

Node.js 23 现已推出,带来了新功能、性能改进和更好的开发者体验。此次版本提升了兼容性和稳定性,提供了更多工具来构建高效的应用程序。 此外,Node.js 22 将在 10 月 29 日当周被提升为长期支持 (LTS) 版本,进入长期维护阶段&am…

【Xbim+C#】创建圆盘扫掠IfcSweptDiskSolid

基础回顾 https://blog.csdn.net/liqian_ken/article/details/143867404 https://blog.csdn.net/liqian_ken/article/details/114851319 效果图 代码示例 在前文基础上,增加一个工具方法: public static IfcProductDefinitionShape CreateDiskSolidSha…

视图合并机制解析 | OceanBase查询优化

背景 在默认配置下,若查询语句中嵌入了视图,系统会先等待视图内部所包含的查询完全执行完成后,再继续执行父查询。这种方式造成优化器无法将视图查询与外层查询视为一个整体来进行优化处理,从而限制了优化效果。因此,…

操作系统实验 C++实现死锁检测算法

实验目的 模拟实现死锁检测算法 实验内容 1、 输入: “资源分配表”文件,每一行包含资源编号、进程编号两项(均用整数表示,并用空格分隔开),记录资源分配给了哪个进程。 “进程等待表”文件&…

Redis分布式锁的原理与Redisson实现

Redis分布式锁的原理与Redisson实现 目录 引言Redis分布式锁的基本原理Redisson实现Redis分布式锁Redisson分布式锁的使用示例小结 引言 在分布式系统中,多个服务实例同时访问共享资源时,可能会导致数据不一致或竞争条件。为了解决这些问题&#xff…

《人工智能深度学习的基本路线图》

《人工智能深度学习的基本路线图》 基础准备阶段 数学基础: 线性代数:深度学习中大量涉及矩阵运算、向量空间等概念,线性代数是理解和处理这些的基础。例如,神经网络中的权重矩阵、输入向量的运算等都依赖于线性代数知识。学习内容…

面向对象编程(OOP)深度解析:思想、原则与应用

🚀 作者 :“码上有前” 🚀 文章简介 :Java 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 面向对象编程(OOP)深度解析:思想、原则与应用 一、面向对象编程的基本…