【漫话机器学习系列】077.范数惩罚是如何起作用的(How Norm Penalties Work)

devtools/2025/2/6 0:09:04/

范数惩罚的作用与原理

范数惩罚(Norm Penalty) 是一种常用于机器学习模型中的正则化技术,它的主要目的是控制模型复杂度,防止过拟合。通过对模型的参数进行惩罚(即在损失函数中加入惩罚项),使得模型的参数尽可能小或具有某种特定的结构,从而提升模型的泛化能力。

范数惩罚一般分为L1范数惩罚L2范数惩罚两种,分别对应着Lasso回归Ridge回归。这两种范数惩罚的作用是通过对模型参数的约束来减少模型的复杂度,避免过拟合。

1. L1范数惩罚(Lasso)

L1范数惩罚通过最小化参数的绝对值之和来施加惩罚。它的惩罚项为:

其中:

  • 是模型的参数(例如线性回归中的权重)。
  • λ 是正则化强度的超参数,控制惩罚项的权重。

L1范数的特点是:

  • 它倾向于将某些参数的值缩小到0。因此,它能起到特征选择的作用,通过自动地去除一些不重要的特征(使得对应的权重变为零)。
  • 适用于高维度数据和特征较多的场景。

L1范数惩罚的优点:

  • 可以进行特征选择,自动剔除冗余特征。
  • 对于稀疏数据(即大多数特征值为零的数据)有良好的效果。

2. L2范数惩罚(Ridge)

L2范数惩罚通过最小化参数的平方和来施加惩罚。它的惩罚项为:

其中:

  • ​ 是模型的参数。
  • λ 是正则化强度的超参数。

L2范数的特点是:

  • 它将所有参数都缩小到较小的值,而不会将它们缩小为零。也就是说,L2惩罚可以使模型的参数变得更小,但通常不会完全消除某些参数。
  • 适用于特征较多,且特征之间存在一定相关性的情况。

L2范数惩罚的优点:

  • 它通常能使得模型参数变得平滑,避免模型过于复杂,从而有效防止过拟合。
  • 对于小的噪声数据,L2正则化通常能够更好地保持稳定性。

3. L1和L2的组合(Elastic Net)

Elastic Net 是 L1 和 L2 正则化的组合,它结合了 Lasso 和 Ridge 的优点。它的惩罚项为:

Elastic Net 同时使用 L1 和 L2 正则化,使得模型不仅可以选择重要特征(L1范数的特点),而且可以避免在特征空间中出现非常大的系数(L2范数的特点)。

4. 范数惩罚对模型的影响

范数惩罚的作用可以通过以下方式起作用:

  1. 控制模型复杂度:通过惩罚模型的参数,限制模型的自由度,使得模型不会过度拟合训练数据,特别是在特征较多或数据较少的情况下。
  2. 防止过拟合:当数据量较小或噪声较多时,模型很容易过拟合。范数惩罚通过限制参数的大小或数量,从而抑制过拟合。
  3. 提升模型泛化能力:正则化约束模型,使得它对训练集外的数据也有良好的表现。

5. 正则化强度超参数(λ)

  • 选择合适的 λ:正则化强度 λ 控制了惩罚项的影响。如果 λ 太大,模型的复杂度会被过度约束,可能会欠拟合;如果 λ 太小,惩罚项的作用就不明显,可能会导致过拟合。通常通过交叉验证来选择合适的 λ。

总结

范数惩罚通过限制模型参数的大小或数量,防止模型过拟合并提高泛化能力。L1范数惩罚具有特征选择的效果,而L2范数惩罚则通过平滑模型来减少复杂性。Elastic Net 结合了两者的优点,适用于更多的实际场景。

 


http://www.ppmy.cn/devtools/156400.html

相关文章

【贪心算法篇】:“贪心”之旅--算法练习题中的智慧与策略(二)

✨感谢您阅读本篇文章,文章内容是个人学习笔记的整理,如果哪里有误的话还请您指正噢✨ ✨ 个人主页:余辉zmh–CSDN博客 ✨ 文章所属专栏:贪心算法篇–CSDN博客 文章目录 前言例题1.买卖股票的最佳时机2.买卖股票的最佳时机23.k次取…

各种CNN 卷积特征图可视化理解方法(链接)

1.链接一 C/DNN Explainer CNN Explainerhttps://poloclub.github.io/cnn-explainer/ 2.Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Summit: Scaling Deep Learning Interpretability by Visualizing Activation and Attribution Sum…

Ubuntu20安装docker

docker有三大版本: docker.io/docker-ce/docker-ee 他们之间的区别请参考: https://kms.app/archives/324/ 这里有四个备选:docker、podman-docker、docker.io以及不在其中的docker-ce。当我们在面对这样的多元选择瞬间,确实可能会…

C# OpenCV机器视觉:图像去雾

在一座常年被雾霾笼罩的城市里,生活着一位名叫阿强的摄影爱好者。阿强对摄影痴迷到骨子里,他总梦想着能捕捉到城市最真实、最美的瞬间,然后把这些美好装进他的镜头,分享给全世界。可这雾霾就像个甩不掉的大反派,总是在…

Linux 传输层协议 UDP 和 TCP

UDP 协议 UDP 协议端格式 16 位 UDP 长度, 表示整个数据报(UDP 首部UDP 数据)的最大长度如果校验和出错, 就会直接丢弃 UDP 的特点 UDP 传输的过程类似于寄信 . 无连接: 知道对端的 IP 和端口号就直接进行传输, 不需要建立连接不可靠: 没有确认机制, 没有重传机制; 如果因…

小程序的协同工作与发布

1.小程序API的三大分类 2.小程序管理的概念,以及成员管理两个方面 3.开发者权限说明以及如何维护项目成员 4.小程序版本

实战:如何利用网站日志诊断并解决收录问题?

本文转自:百万收录网 原文链接:https://www.baiwanshoulu.com/50.html 利用网站日志诊断并解决收录问题是一种非常有效的方法。以下是一个实战指南,帮助你如何利用网站日志来诊断并解决网站的收录问题: 一、获取并分析网站日志 …

【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

1. 引言 近年来,大型语言模型 (LLM) 取得了令人瞩目的进展,其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化,并在各种 NLP 任务上取得了优异的性能。 本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练…