【CV】常用 Normalization 方法的总结与思考:BN、LN、IN、GN、BGN

news/2024/12/29 17:03:08/

批处理归一化(BN)是早期提出的一种归一化方法,也是应用最为广泛的方法。BN利用计算出的均值和方差对特征图进行归一化,再对归一化后的特征图进行重新缩放和移位,以保证DCNN(深度卷积神经网络)的表征能力。同时,在BN的基础上,提出了许多其他任务的归一化方法。

目前在深度学习中常用的Normalization如下:

  1. Batch Normalization(BN,2015年)
  2. Layer Normalization(LN,2016年)
  3. Instance Normalization(IN,2017年)
  4. Group Normalization(GN,2018年)
  5. Positional Normalization(PN,2019年)
  6. Batch Group Normalization(BGN,2020年)

在这里插入图片描述

  • 层归一化-LN:用于计算递归神经网络沿通道的统计量;
  • 权值归一化-WN:来参数化权值向量,用于监督图像识别、生成建模和深度强化学习;
  • 切分归一化-DN:提出包含BN和LN层的归一化层,作为图像分类、语言建模和超分辨率的特例;
  • 实例归一化-IN:为了进一步快速风格化,提出了IN层,主要用于图像分割迁移,其中统计量由高度和宽度维度计算得到;
  • 组归一化-GN:对通道进行分组,统计每个分组通道的高度和宽度,增强对批量大小的稳定性;
  • 位置归一化-PN:提出了位置归一化算法来计算生成网络沿信道维数的统计量;
其他相关归一化的改进比如:
EvalNorm、
Moving Average BN、
Adaptive Normalization、
Square LN、
Decorrelated BN、
Spectral Normalization、
BatchInstance Normalization(BIN)、
Switchable Normalization(SN)、
Meta Normalization、
Kalman Normalization(KN)
等等,
这里不再赘述,感兴趣的您可以寻找相关论文进行研究。

在这些归一化方法中,BN通常可以在中、大批量中取得良好的性能。然而,在小批量它的性能便会下降比较多;GN在不同的Batch Size下具有较大的稳定性,而GN在中、大Batch Size下的性能略差于BN。其他归一化方法,包括INLNPN在特定任务中表现良好,但在其他视觉任务中泛化性比较差。

BGN:超大Batch下BN会出现饱和(比如,Batch为128),并提出在小/超大Batch下BN的退化/饱和是由噪声/混淆的统计计算引起的。因此,在不增加新训练参数和引入额外计算的情况下,通过引入通道、高度和宽度维度来补偿,解决了批量标准化在小/超大Batch下BN的噪声/混淆统计计算问题。

对于这一系列的Normalization操作,我今天就总结到这,详细的内容请参考下面的参考文献,里面的内容更加的丰富。有时间的话,我会研读每一篇paper,今天就到这里,拜拜。

参考

https://mp.weixin.qq.com/s/lTwaTEAVjfOODg-w1Nb8tA[含论文下载]

https://mp.weixin.qq.com/s/f7R9akK-rmJ5TaQbRZiQRw

https://mp.weixin.qq.com/s/tdDhBRDgFE702XINmKTHnQ

https://mp.weixin.qq.com/s/IfgsqL0wtjD7hRo6V5VGcw


http://www.ppmy.cn/news/437267.html

相关文章

深度学习中的 BN (BatchNormalization)理解

CNN 三大算子: CONV BN RELU 1、为什么 BN 指导思想: 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的。 具有统一规格的数据, 能让机器学习更容易学习到数据之中的规律。 具体原因&#xf…

YOLOv5改进系列(10)——替换主干网络之GhostNet

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制

【深度学习】——BN层(batch normalization)

目录 一、“Internal Covariate Shift”问题 二、BatchNorm的本质思想 两个参数r和β的意义——精髓所在 三、训练阶段如何做BatchNorm 四、BatchNorm的推理(Inference)过程 五、BatchNorm的好处 一般使用在卷积层后、激活层前 Batch Normalization作为最近一年来DL的重要…

omnipeek关于抓包信道的介绍

bgn代表11b/g/n, an代表11a 11n, n40l是40Mhz带宽11n模式下的向下复用信道, n40h是40Mhz带宽11n模式下的向上复用信道, 一个普通信道是20M带宽,可复用一个信道达到40M带宽, u代表11ac,当设置5G信道为8…

GNN

图形神经网络(GNN)主要用于分子应用,因为分子结构可以用图形结构表示。 GNN的有趣之处在于它可以有效地建模系统中对象之间的关系或交互。 近年来,图神经网络(GNN)在社交网络、知识图、推荐系统甚至生命科学等各个领域得到了越来…

NR paging

微信同步更新欢迎关注同名“modem协议笔记” IMS 是基于PS domain的网络。LTE时代,IMS建网初期,UE虽然注册IMS,但是网络仍然会下发CS domain paging,进而引起CSFB的问题。当时不少有客户提case,询问这个问题是否正常。…

BN算法

Motivation 2015年的论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》阐述了BN算法,这个算法目前已经被大量应用,很多论文都会引用这个算法,进行网络训练,可见其强大之处…

深度学习—BN的理解(一)

0、问题 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经…