人工智能之机器学习5-回归算法2【培训机构学习笔记】

培训班ppt内容：

个人精进总结：

可解释方差

定义

可解释方差的回归评分函数是一种用于评估回归模型性能的指标，以下从其定义、计算公式、取值范围及意义、应用场景等方面进行详细介绍：

可解释方差（Explained Variance）是指回归模型能够解释的因变量方差的比例，它反映了模型对数据中变异部分的捕捉能力。通过计算可解释方差，可以了解模型对数据的拟合程度以及预测结果的可靠性。

计算公式

设 $y_{i}$ 为真实的观测值， $\hat{y}_{i}$ 为回归模型的预测值， $\bar{y}$ 为观测值的均值， n为样本数量，则可解释方差的计算公式为： $ExplainedVariance = \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}$

取值范围及意义

取值范围：可解释方差的取值范围在0 到 1之间。
意义解释：
- 当可解释方差为 1 时，表示回归模型能够完全解释因变量的方差，即预测值与真实值完全一致，模型的拟合效果完美。
- 当可解释方差为 0 时，说明模型完全无法解释因变量的方差，预测值完全是随机的，等同于使用均值来进行预测。
- 一般情况下，可解释方差越接近 1，模型的拟合效果越好，能够解释的数据变异部分越多，预测结果也就越可靠。

与其他回归评分函数的比较

与均方误差（MSE）的比较：均方误差衡量的是预测值与真实值之间差异的平方的平均值，它侧重于评估预测值的准确性，但无法直接反映模型对数据变异的解释能力。而可解释方差则从数据变异的角度来评估模型，更关注模型对因变量波动的捕捉程度。
与决定系数（ $R^{2}$ ）的比较：决定系数实际上就是可解释方差的一种特殊情况，二者在数值上是相等的。但在一些文献和应用中，可解释方差的概念更强调从方差解释的角度来理解模型的性能，而决定系数则更侧重于从拟合优度的角度来描述模型对数据的拟合程度。

应用场景

模型评估与选择：在比较不同的回归模型对同一组数据的拟合效果时，可解释方差可以作为一个重要的评估指标。通常情况下，可解释方差越高的模型，其对数据的拟合能力相对更强，更能捕捉到数据中的内在规律，从而可以帮助我们选择出性能更优的模型。
模型改进与优化：通过计算可解释方差，可以了解当前模型在解释数据变异方面的不足之处。如果可解释方差较低，可以进一步分析数据特征、调整模型结构或参数，以提高模型对数据的解释能力和预测精度。
数据理解与探索：可解释方差还可以帮助我们了解数据本身的特征和变异性。如果某个数据集的可解释方差普遍较低，可能意味着数据中存在较多的噪声或复杂的非线性关系，需要进一步对数据进行预处理或采用更复杂的模型来进行分析。

R^2值

定义

$R^{2}$ 即决定系数，是在回归分析中用于评估回归模型拟合优度的一个重要指标，其衡量的是回归模型对观测数据的拟合程度，它表示因变量的总变异中能够被自变量解释的比例。换句话说， $R^{2}$ 值反映了模型能够在多大程度上解释因变量的变化。

计算公式

设 $y_{i}$ 为真实的观测值， $\hat{y}_{i}$ 为回归模型的预测值， $\bar{y}$ 为观测值的均值，n为样本数量，则 $R^{2}$ 的计算公式为：

$R^{2}= \frac{\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2} = 1- \frac{\sum_{i=1}^{n}({y}_{i}-\hat{y_{i}})^2}{\sum_{i=1}^{n}(y_{i}-\bar{y})^2}$

其中，分子部分 $\sum_{i=1}^{n}(\hat{y}_{i}-\bar{y})^2$ 表示回归平方和，即自变量对因变量变异的解释部分；分母部分 $\sum_{i=1}^{n}(y_{i}-\bar{y})^2$ 表示总离差平方和，即因变量的总变异程度； $\sum_{i=1}^{n}(y_{i}-\hat{y}_i)^2$ 是残差平方和。

取值范围及意义

取值范围： $R^{2}$ 值的取值范围在 0 到 1 之间。
意义解释：
- 当 $R^{2}=1$ 时，表示回归模型完全拟合了观测数据，即所有观测点都恰好位于回归直线上，预测值与真实值完全一致，因变量的变异完全由自变量解释，模型的拟合效果达到最佳。
- 当 $R^{2}=0$ 时，说明回归模型完全无法解释因变量的变异，预测值完全是随机的，等同于使用均值来进行预测，此时模型对数据的拟合没有任何意义。
- 一般情况下， $R^{2}$ 值越接近1，表明模型能够解释的因变量变异部分越多，模型对数据的拟合程度越好，预测结果也就越可靠。例如， $R^{2}=0.8$ 表示模型能够解释80% 的因变量变异，还有20% 的变异无法被模型解释。

与其他指标的比较

与均方误差（MSE）的比较：MSE 衡量的是预测值与真实值之间差异的平方的平均值，它侧重于评估预测值的准确性，数值越小表示预测误差越小。而 $R^{2}$ 值则从整体拟合优度的角度来评估模型，更关注模型对因变量变异的解释比例，二者从不同的角度反映了回归模型的性能。
与可解释方差的比较：实际上， $R^{2}$ 值与可解释方差在数值上是相等的，二者本质上是同一概念的不同表述方式。可解释方差更强调从方差解释的角度来理解模型的性能，而 $R^{2}$ 值更侧重于从拟合优度的角度来描述模型对数据的拟合程度。

应用场景

模型评估与比较：在建立多个不同的回归模型对同一组数据进行拟合时，可以通过比较它们的值来选择最优的模型。通常情况下， $R^{2}$ 值越高的模型，其对数据的拟合效果相对更好，更能捕捉到数据中的内在规律，从而为模型的选择提供依据。
模型解释能力评估： $R^{2}$ 值能够直观地反映出回归模型对因变量变异的解释程度，帮助我们了解自变量对因变量的影响程度。较高的 $R^{2}$ 值意味着模型能够较好地解释因变量的变化，说明我们所选取的自变量对因变量具有较强的解释能力。
模型改进方向指导：如果 $R^{2}$ 值较低，说明模型对数据的拟合效果不理想，存在较大的改进空间。此时，可以进一步分析数据特征、增加自变量、改进模型结构或采用更复杂的模型等方法来提高 $R^{2}$ 值，从而提升模型的性能。