正则项:L1与L2

news/2024/11/24 3:26:45/

正则项

一般地,我们优化 M S E MSE MSE

l m s e = ∑ i ( y i − y ^ i ) 2 n l_{mse}=\frac{\sum_i (y_i-\hat y_i)^2}{n} lmse=ni(yiy^i)2

为了使参数尽可能小,加入正则项,防止过拟合,减小方差。L1正则可以更容易得到稀疏项。这一点可以降低参数量举个例子。例如我们的参数只有 w 1 w_1 w1 w 2 w_2 w2,那么我们的目标是让损失为0,如果损失为0,L1正则对应的是菱形,L2正则对应的是圆, M S E MSE MSE损失函数对应的是偏离原点的椭圆,是关于椭圆的平移变换。

l m s e + ∣ w 1 ∣ + ∣ w 2 ∣ = 0 l_{mse}+|w_1|+|w_2| = 0 lmse+w1+w2=0

l m s e = − ( ∣ w 1 ∣ + ∣ w 2 ∣ ) l_{mse} = - (|w_1|+|w_2|) lmse=(w1+w2)

− ( ∣ w 1 ∣ + ∣ w 2 ∣ ) - (|w_1|+|w_2|) (w1+w2)表示一个菱形,与 l m s e l_{mse} lmse的交点可以更容易使得 w 1 w_1 w1 w 2 w_2 w2为0,得到稀疏性。

注:上述这一部分可以参考西瓜书253页

参考资料

https://blog.csdn.net/jinping_shi/article/details/52433975 (感觉讲的不错)


http://www.ppmy.cn/news/546483.html

相关文章

L1, L2以及smooth L1 loss

在机器学习实践中,你也许需要在神秘的L1和L2中做出选择。通常的两个决策为:1) L1范数 vs L2范数 的损失函数; 2) L1正则化 vs L2正则化。 作为损失函数 L1范数损失函数,也被称为最小绝对值偏差(LAD)&#…

YK-L1刷机

文章目录 1.测试是否能够连接到路由器2.刷breed3.Padavan firmware编译4.烧板5.验证杂文1.1设置应用开机后自启动1.编写测试用程序2.编写运行脚本3.编写start.service4.设置为开机自启动5.验证 1.2内核模块编写(使用insmod方式)1.3内核模块编写&#xff…

L1 和 L2的区别

L1 和 L2的区别: L1范数是指向量中各个元素绝对值值和,也有一个美称叫“稀疏规则算子”。(Lasso regularization) 比如向量 A [ 1 , − 1 , 3 ] A [1,-1,3] A[1,−1,3],那么A的L1范数为 ∣ 1 ∣ ∣ − 1 ∣ ∣ 3 ∣ |1||-1||…

L1和L2 复习问题

L1和L2 L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥? https://editor.csdn.net/md/?articleId106009362 “为什么所有这些都有助于减少过度拟合的问题?” 请考虑绝对值和平方函数的图,其中绝对值表示在L1期…

L1和L2正则化区别

1. L1和L2的定义 L1正则化,又叫Lasso Regression 如下图所示,L1是向量各元素的绝对值之和 L2正则化,又叫Ridge Regression 如下图所示,L2是向量各元素的平方和 2. L1和L2的异同点 相同点:都用于避免过拟合 不同点…

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解 在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则化和L2正则化。 L1…

L1和L2正则化

1 过拟合问题 过拟合是数据科学领域的一个重要问题,需要处理好过拟合问题才能建立一个健壮和准确的模型。当模型试图很好的拟合训练数据但导致无法泛化到测试数据时,就出现了过拟合。过拟合模型捕捉的更多的是训练数据找的呢细节和噪声,而不…

正则化L1 L2

文章目录 1 正则化1.1 L1正则化1.1.1 为什么L1正则化产生了稀疏矩阵?1.1.2 从导数角度理解为什么L1能产生稀疏矩阵 1.2 L2正则化1.2.1 L2为什么就不能产生稀疏矩阵,而是让所有参数的值都相对变小,继而做到权值衰减1.2.2 从导数角度理解L2的权…