深度学习中卷积层(Conv)、BN层(Batch Normalization)和 ReLU层(Rectified Linear Unit)的详细介绍

ops/2025/2/27 7:37:08/

一、卷积层(Conv)

  1. 定义

    • 卷积层是深度学习中卷积神经网络(CNN)的核心组成部分。它通过对输入数据(如图像)进行卷积操作来提取特征。卷积操作是用一个卷积核(也称为滤波器)在输入数据上滑动,计算卷积核与输入数据局部区域的点积。

    • 例如,对于一个图像输入,卷积核可以看作是一个小型的窗口,它在图像上按照一定的步长(stride)移动,每次移动到一个位置就和该位置对应的像素值进行乘积求和操作,得到一个输出值,这些输出值构成了卷积后的特征图。

  2. 参数说明

    • 卷积核大小(Kernel size):这是卷积核的尺寸,通常是一个正方形,如 3×3、5×5 等。较小的卷积核可以捕捉局部特征,较大的卷积核可以捕捉更大范围的特征。

    • 步长(Stride):卷积核在输入数据上滑动的步长。如果步长为 1,卷积核每次移动一个像素;如果步长为 2,卷积核每次移动两个像素,这会影响输出特征图的大小。

    • 填充(Padding):为了控制输出特征图的大小,可以在输入数据的边界添加填充。常见的填充方式有“valid”(不添加填充)和“same”(添加足够的填充使得输出特征图的大小与输入特征图相同)。

    • 卷积核数量(Number of filters):这决定了卷积层输出特征图的深度。每个卷积核都会产生一个特征图,多个卷积核可以提取不同的特征,从而得到多通道的输出特征图。

  3. 作用

    • 特征提取:卷积层能够自动从输入数据中学习到有用的特征。在图像处理中,它可以学习到边缘、纹理、形状等特征。例如,在手写数字识别任务中,卷积层可以先提取数字的边缘特征,然后逐渐组合这些边缘特征来形成更复杂的形状特征。

    • 降维(在一定程度上):通过适当设置步长和卷积核大小,卷积层可以在提取特征的同时减少数据的空间维度。例如,使用较大的步长可以使输出特征图的尺寸变小,从而降低计算复杂度和参数数量。

二、BN层(Batch Normalization)

  1. 定义

    • BN层是一种用于加速神经网络训练和提高模型泛化能力的技术。它通过对神经网络中每一层的输入进行标准化处理,使得每一层的输入具有零均值和单位方差,从而减少内部协变量偏移(Internal Covariate Shift)。

    • 内部协变量偏移是指在神经网络训练过程中,由于前面层参数的更新,导致后面层的输入分布不断变化,这会使得网络训练变得困难。

  2. 参数说明

    • 均值(Mean)和方差(Variance):BN层会计算每个小批量(batch)数据的均值和方差。在训练过程中,这些均值和方差是基于每个小批量的数据计算得到的;在测试过程中,通常会使用训练过程中保存的全局均值和方差(通过对所有训练批次的均值和方差进行加权平均得到)。

    • 缩放参数(γ)和偏移参数(β):为了恢复网络的表达能力,BN层引入了可学习的缩放参数和偏移参数。在标准化后的数据上,通过乘以缩放参数和加上偏移参数,可以使网络重新学习到适合的特征分布。

  3. 作用

    • 加速训练:通过标准化处理,BN层使得每一层的输入分布更加稳定,这使得神经网络在训练过程中可以使用更大的学习率,从而加快收敛速度。例如,在没有 BN层的情况下,可能需要小心翼翼地调整学习率才能保证网络稳定训练,而有了 BN层后,可以相对大胆地增加学习率,减少训练的迭代次数。

    • 正则化效果:BN层在一定程度上可以起到正则化的作用,减少过拟合。因为每个小批量的数据在标准化过程中会引入一些噪声(由于每个小批量的均值和方差可能略有不同),这种噪声类似于数据增强,可以使模型更加鲁棒。

    • 允许更深的网络结构:在没有 BN层的情况下,构建深层神经网络可能会遇到梯度消失或梯度爆炸等问题,导致训练失败。BN层的使用使得深层网络的训练变得更加容易,从而可以构建更复杂的模型来处理更复杂的任务。

三、ReLU层(Rectified Linear Unit)

  1. 定义

    • ReLU层是一种激活函数层,它的作用是引入非线性因素到神经网络中。ReLU函数的定义为 f(x)=max(0,x),即当输入值大于 0 时,输出为该输入值;当输入值小于或等于 0 时,输出为 0。

    • 例如,对于输入数据 [ -1, 2, -3, 4 ],经过 ReLU函数后输出为 [0, 2, 0, 4 ]。

  2. 参数说明

    • ReLU函数本身没有可学习的参数,它只是一个简单的非线性变换函数。不过,在一些变体中可能会有一些参数,如 Leaky ReLU,它引入了一个小的斜率参数(α)来处理负值输入,函数定义为 f(x)={xαx​if x>0if x≤0​。

  3. 作用

    • 引入非线性:神经网络中的线性层(如卷积层和全连接层)只能学习到线性关系,而 ReLU层的引入使得整个神经网络能够学习到复杂的非线性关系。这使得神经网络可以拟合各种复杂的函数,从而能够处理更复杂的任务,如图像分类、语音识别等。

    • 缓解梯度消失问题:相比于传统的激活函数(如 sigmoid 和 tanh),ReLU函数在正区间的导数为 1,这使得在反向传播过程中梯度不会被压缩得太小,从而在一定程度上缓解了梯度消失问题,有利于深层神经网络的训练。

    • 提高计算效率:ReLU函数的计算比较简单,它只是比较输入值和 0,然后取最大值,相比于一些复杂的激活函数(如 sigmoid 函数涉及到指数运算),ReLU函数的计算效率更高,可以加快神经网络的训练和推理速度。

深度学习模型中,卷积层、BN层和 ReLU层通常是组合在一起使用的。例如,在一个典型的 CNN结构中,先通过卷积层提取特征,然后使用 BN层对特征进行标准化处理,最后通过 ReLU层引入非线性因素,这样的组合可以充分发挥每个层的优势,提高模型的性能


http://www.ppmy.cn/ops/161615.html

相关文章

华为数通Datacom认证体系详解:从HCIA到HCIE的进阶路径

华为数通Datacom(Data Communication)课程是华为认证体系中的核心方向之一,聚焦企业网络通信与数据通信技术,适合从事网络规划、部署和运维的人员。 一、数通Datacom课程体系 华为数通Datacom认证分为 三个级别,逐级递…

ARP协议的工作原理

ARP(Address Resolution Protocol,地址解析协议)的工作原理是通过请求-响应的方式,将目标设备的IP地址解析为对应的MAC地址。以下是ARP协议的工作原理的详细步骤: 1. ARP请求(ARP Request) 当设…

【MySQL】索引(上)

欢迎拜访:雾里看山-CSDN博客 本篇主题:【MySQL】索引(上) 发布时间:2025.2.26 隶属专栏:MySQL 目录 初始索引基本介绍常见索引分类案例使用 认识磁盘MySQL 与 存储关于磁盘关于扇区定位扇区结论磁盘随机访问(Random Access)与连续…

dataSource already closed

之前的代码是单线程跑,由定时任务触发,考虑到以后数据量可能变大,就改用多线程处理,改完之后进行单元测试报错: org.springframework.jdbc.CannotGetJdbcConnectionException: Failed to obtain JDBC Connection; nes…

LLC谐振变换器恒压恒流双竞争闭环simulink仿真

1.模型简介 本仿真模型基于MATLAB/Simulink(版本MATLAB 2017Ra)软件。建议采用matlab2017 Ra及以上版本打开。(若需要其他版本可联系代为转换)针对全桥LLC拓扑,利用Matlab软件搭建模型,分别对轻载&#xf…

android keystore源码分析

架构 Android Keystore API 和底层 Keymaster HAL 提供了一套基本的但足以满足需求的加密基元,以便使用访问受控且由硬件支持的密钥实现相关协议。 Keymaster HAL 是由原始设备制造商 (OEM) 提供的动态加载库,密钥库服务使用它来提供由硬件支持的加密服…

string类详解(下)

文章目录 4. string类的模拟实现4.1 构造 析构4.2 c_str4.3 下标遍历4.4 迭代器4.5 插入4.6 删除4.7 查找4.8 赋值4.9 交换4.10 提取子串4.11 比较大小4.12 流插入 && 流提取 5. 现代版写法的String类5.1 完整代码 6. 写时拷贝(了解) 4. string…

LeetCode详解之如何一步步优化到最佳解法:14. 最长公共前缀

LeetCode详解系列的总目录(持续更新中):LeetCode详解之如何一步步优化到最佳解法:前100题目录(更新中...)-CSDN博客 LeetCode详解系列的上一题链接:LeetCode详解之如何一步步优化到最佳解法&am…