为什么要进行网络归一化层?
神经网络训练过程中,当网络层数较多的时候,每一轮训练每个网络层的参数都会发生变化,那么网络层参数变化会有什么影响呢?
1. 向网络中输入相同分布的样本时,由于每一层网络的参数已经发生了变化,而在神经网络中,下一层的输入就是上一层网络的输出,这个时候,上一层网络的参数发生了变化,那么这个变化就可能导致输出的分布发生变化,也就是和上一轮的输出相比,分布发生了变化,这个变化的输出输入到下一层神经网络之后,又会继续发生变化,这样直到输出层的时候,得到了与上一轮差距较大的输出,这样利用损失函数计算损失的时候,损失又会相对较大,从而导致需要更多轮次的训练模型才可能拟合,所以就说模型训练会变慢!!!
什么是神经网络的归一化层及其作用?
神经网络中的归一化层(Normalization Layer)是一种用于提高训练速度和模型性能的技术。归一化层的主要目的是调整网络中间层的输出,使其具有零均值和单位方差,从而减少内部协变量偏移(Internal Covariate Shift)。
神经网络归一化层的作用是什么?
归一化层通过使网络中间层的输出具有零均值和单位方差,可以减少内部协变量偏移,从而提高训练的稳定性和效率。具体来说,这种归一化操作对训练过程有以下几个积极影响:
-
减少梯度消失或爆炸问题:当每层输入的分布被稳定下来后,梯度的规模不再随着网络深度增加而变得过大或过小,这有助于避免梯度消失或爆炸,使得网络训练更加稳定。
-
允许使用更高的学习率:由于梯度的规模更加稳定,可以设置更高的学习率,从而加快模型的收敛速度。
-
减少对初始化的依赖:归一化层使得网络对于参数的初始化不那么敏感,因为即使初始化不理想,归一化层也能在训练过程中调整输入分布,使得网络能够更有效地学习。
-
提高模型的泛化能力:归一化层通过减少过拟合,有助于提高模型在新数据上的泛化能力。
-
正则化效果:归一化层还具有一定程度的正则化效果,可以减少过拟合现象,有时甚至可以减少或替代其他正则化技术,如Dropout。
归一化层的具体实现过程:
参考:https://www.bilibili.com/video/BV1Fr4y1J7rC/?spm_id_from=333.337.search-card.all.click&vd_source=bad9fad47786fe7e9f54f99cc00b91e9