深度学习-卷积神经网络实战文档注释

devtools/2025/1/21 1:47:29/

1、call 方法
是一个特殊的方法,它允许类的实例表现得像函数一样。也就是说,你可以使用圆括号 () 来调用一个实例,就像调用普通函数一样。
当你调用 model(input_data) 时,实际上是调用了模型的 __ call __ 方法,其会自动调用 forward() 方法,完成前向传播的计算。而不需要(显示地)手动调用 model.forward(input_data)。
2、什么是卷积神经网络
卷积神经网络是一种带有卷积结构的深度神经网络,卷积结构可以减少深层网络占用的内存量,其三个关键的操作,其一是局部感受野,其二是权值共享,其三是 pooling 层,有效的减少了网络的参数个数,缓解了模型的过拟合问题。
3、卷积神经网络注意事项
数据驱动的模型一般依赖于数据集的大小,CNN 和其他经验模型一样,能够适用于任意大小的数据集,但用于训练的数据集应该足够大, 能够覆盖问题域中所有已知可能出现的问题。
4、正交初始化(Orthogonal Initialization)
是一种用于神经网络权重初始化的方法,旨在使权重矩阵具有正交性。正交矩阵的行或列是彼此正交并且单位化的,这种初始化方式有助于维持梯度的规模,防止在深度神经网络训练过程中发生梯度爆炸或消失。
正交初始化的具体实现步骤
生成随机矩阵:首先,从均值为0、方差为1的高斯分布中随机生成一个矩阵。
奇异值分解(SVD):对生成的随机矩阵进行奇异值分解(SVD),得到两个正交矩阵U和V,以及一个对角矩阵Σ。
选择正交矩阵:从U和V中选择一个作为初始化后的权重矩阵。通常选择形状与目标权重矩阵匹配的那个。
正太分布、均匀分布和正交分布都叫随机初始化
5、零值初始化
在零值初始化中,所有权重 W 和偏置 b 都被设置为零:
W=0,b=0
零值初始化的问题
对称性问题:
如果所有权重都初始化为零,那么在训练过程中,所有神经元的输出和梯度更新都会相同。这导致模型无法有效学习,因为所有的隐含单元都计算相同的函数,这种情况称为对称性问题(Symmetry Breaking Problem)。
例如,对于一个简单的神经网络,如果所有权重都初始化为零,那么每个神经元的输入和输出在每一层都会相同,梯度更新也会相同,从而无法打破对称性。
梯度消失问题:
由于所有初始值都为零,梯度在反向传播过程中也会非常小,这可能导致梯度消失问题,使得模型难以收敛。
6、如何选择激活函数
(1)任选其一:若网络层数不多
(2)ReLU:若网络层数较多
不宜选择sigmoid、tanh,因为它们的导数都小于1,sigmoid的导数更是在[0, 1/4]之间。
根据微积分链式法则,随着网络层数增加,导数或偏导将指数级变小。
所以,网络层数较多的激活函数其导数不宜小于1也不能大于1,大于1将导致梯度爆炸,导数为1最好,而relu正好满足这个要求。
7、全局平均池化
常用于卷积神经网络的末端,以替代传统的全连接层,减少模型的参数量,简化网络结构,提高计算效率
8、正则化为啥能够防止过拟合
首先,模型越复杂,越容易过拟合,即我们想要拟合的是一般规律,但是模型却会把一些噪声也拟合进来。
其次,权重参数可以决定模型复杂度,当很多参数接近0(影响变小),甚至为0时,模型的很多项将失效,可以借助多项式理解,复杂度自然降低。
最后,正则化项可以让很多权重参数为0,比如L2正则化项,它是由权重参数的平方求和再求平方根,所以为了让损失函数最小,受到正则化项的惩罚,权重参数就会尽量小。
正则化系数也叫权重衰减系数。
8.1 L1正则化
形式为参数的绝对值求和再乘以一个正则化超参数
目的是使冗余的参数置零,只保留权重大的前N个参数。所以也叫做特征选择。
8.2 L2正则化
L2正则化(权重衰减) —— 过拟合参数趋近于0
L2正则化(L2范数),通常表示为:||W||2:指权值向量 W 中各个元素的平方和,然后求平方根。
特点:又叫权重衰减。即抑制模型中产生过拟合的参数,使其趋近于0(而不等于0),影响变小。
特点:倾向于让所有参数的权值尽可能小。
8.3 dropout正则化
对于使用了 Dropout 的神经网络,在反向传播时,只会对参与正向传播的神经元的权重参数进行更新,被丢弃的神经元的权重参数不会更新。以下是具体的原因和过程:
Dropout 的工作原理
在训练过程中,Dropout 随机地丢弃(即置零)一部分神经元的输出。这意味着在每次前向传播时,有一部分神经元的输出被置为零,这些神经元在当前的前向传播中不参与计算。
反向传播的链式法则
反向传播是基于链式法则进行的。链式法则表明,每个权重参数的梯度是通过其对应的神经元的输出和下游神经元的梯度计算得到的。如果一个神经元的输出在前向传播中被置为零,那么在反向传播时,这个神经元的梯度也会被置为零,因为它的输出对最终的损失函数没有贡献。
权重参数的更新
在反向传播时,每个权重参数的更新量是根据其梯度计算得到的。如果一个神经元的梯度为零,那么其对应的权重参数的更新量也为零,即这个权重参数不会被更新。
在卷积层中的应用
在 CNN 中,卷积层的输出是一个多维的特征图(feature map)。Dropout 在卷积层中的应用通常有两种形式:标准 Dropout 和 Spatial Dropout。
标准 Dropout
工作原理:
标准 Dropout 会在特征图的每个元素上独立地应用 Dropout。也就是说,每个特征图中的每个像素点都有一定的概率被置为零。
例如,假设有一个特征图的形状为 (N,C,H,W),其中 N 是批量大小,C 是通道数,H 和 W 是特征图的高度和宽度。标准 Dropout 会在每个元素上独立地应用 Dropout,每个元素被丢弃的概率为 p。
实现:
在 PyTorch 中,可以使用 nn.Dropout 来实现标准 Dropout。
self.dropout = nn.Dropout(p=0.5)
Spatial Dropout
工作原理:
Spatial Dropout 与标准 Dropout 不同,它是在特征图的整个通道上应用 Dropout。也就是说,整个通道的特征图要么全部保留,要么全部丢弃。
例如,假设有一个特征图的形状为 (N,C,H,W),Spatial Dropout 会在每个通道上独立地应用 Dropout,每个通道被丢弃的概率为 p。
这种方法可以更好地保留特征图的空间结构,因为整个通道的特征图要么全部保留,要么全部丢弃,不会破坏特征图的空间相关性。
实现:
在 PyTorch 中,可以使用 nn.Dropout2d 来实现 Spatial Dropout。
self.dropout = nn.Dropout2d(p=0.5)
9、梯度
梯度由函数的偏导数组成,沿梯度方向,函数的增长最快。梯度的方向就是偏导数组成的向量的方向,梯度的模就是函数沿梯度方向的变化率。方向导数等于梯度与方向向量的点积,所以,最大的方向导数就是梯度方向。
9.1 经典梯度下降法(gradient descent)
缺点:
对学习率敏感、可能陷入局部最小值、速度慢
9.2 随机梯度下降法(stochastic … SGD)
经典梯度下降法在每次迭代中使用所有训练数据,计算目标函数的梯度,然后更新模型参数。
随机梯度下降法在每次迭代中只使用一个随机选择的训练样本,计算该样本上的损失函数的梯度,然后更新模型参数。
随机梯度下降法的优点是每次迭代的计算成本较低,可以更快地进行迭代,但其缺点是梯度估计的方差较大,导致优化过程可能更加波动。而经典梯度下降法的优点是梯度估计的方差较小,优化过程更加稳定,但其缺点是每次迭代的计算成本较高,特别是在训练数据量很大时。
9.3 动量梯度下降法
动量梯度下降法借鉴了物体从高处滚到低处的原理。由于物体下坡时具有动量,遇到小坑时会由于原有动量的推动,从而跃出小坑。因此,动量梯度下降法在迭代的过程中引入动量的概念,将“速度”作为参数的迭代量,而负梯度则作为速度的修改量。
优点:
在遇到局部最小值或鞍点时,动量可以帮助模型更快地跳出这些区域,减少振荡,从而更快地收敛。
因为累加了历史梯度,也可以减少振荡。
在这里插入图片描述
上面更新速度中的加号是向量的加法
9.4 NAG
在这里插入图片描述
9.5 AdaGrad(Adaptive Gradient Algorithm)
在这里插入图片描述
9.6 RMSProp(Root Mean Square Propagation)
在这里插入图片描述
9.7 Adam
一阶矩估计:是对总体均值的估计,实际应用中,样本的均值可以作为总体的一阶矩估计
二阶矩估计:是对总体方差的估计,实际应用中,样本的方差可以作为总体的二阶矩估计
指数加权移动平均:其中较旧的数据点的权重呈指数衰减的意思是,迭代次数越多,因为较旧的数据点的更新是不断累乘(1-a)的,即越旧的数据点,乘的(1-a)的次数越多,即使a取0.1,只要迭代次数多,很多个(1-a)的乘积都会很小,也就是旧数据的权重会变小。
在这里插入图片描述
在这里插入图片描述
其中偏差修正公式中分母中的变量参数是超参数的t次方,所以,随着迭代次数的增加,这个变量参数会越来越小,即可以达到在迭代初期修正明显,迭代后期基本不修正的效果。
在这里插入图片描述
10、标准化和归一化
在这里插入图片描述
11、Batch Normalization
BN可以用来解决梯度消失和梯度爆炸问题,以及加快收敛。
解决梯度消失和梯度爆炸问题原因是它能够提供每一层稳定的输出,进而可以提供每一层稳定的梯度。
内部协变量偏移(Internal Covariate Shift) 是深度学习中的一个重要概念,指的是在神经网络训练过程中,每一层的输入分布随着前一层参数的变化而不断变化的现象。
产生原因
在深度神经网络中,每一层的输入是前一层的输出。随着训练的进行,前一层的参数不断更新,这会导致其输出分布发生变化,从而影响到下一层的输入分布。例如,假设第一层的权重更新后,其输出特征图的分布发生了变化,那么作为下一层输入的分布也会随之改变。
影响
训练速度变慢:每一层的输入分布不断变化,导致每一层的参数需要不断调整以适应新的输入分布,这使得模型的收敛速度变慢。
梯度不稳定:输入分布的变化可能导致梯度不稳定,进而引发梯度消失或梯度爆炸问题。
超参数选择困难:模型对学习率、权重初始化等超参数变得非常敏感,调参难度增加。
解决方法:Batch Normalization(BN)
Batch Normalization(批标准化)是一种有效解决内部协变量偏移问题的技术。它通过以下步骤工作:
标准化:对每一层的输入进行标准化处理,使其均值为0,方差为1。
重新缩放和偏移:标准化后的数据通过可学习的参数进行重新缩放和偏移,以恢复原始数据的分布特性。
BN的核心思想是通过固定每一层输入的分布,减少因参数更新导致的输入分布变化,从而加速训练过程并提高模型稳定性。
12、状态字典
深度学习框架 PyTorch 中,状态字典(state_dict) 是一个非常重要的概念,它用于保存和加载模型的参数。状态字典本质上是一个 Python 字典对象,其中包含了模型的所有可训练参数(如权重和偏置)以及优化器的状态信息。
状态字典的组成
参数名称(Key):以字符串形式表示,反映了参数在模型中的层次结构。例如,‘conv1.weight’ 表示第一层卷积层的权重。
参数值(Value):对应于参数名称的 Tensor 对象,包含了模型的权重和偏置信息。
状态字典的作用
保存和加载模型参数:状态字典可以将模型的参数保存到文件中,并在需要时加载这些参数,从而恢复模型的训练状态。
支持断点训练:在训练过程中,可以保存状态字典以记录当前的训练进度。如果训练中断,可以加载之前保存的状态字典继续训练。
模型部署:状态字典提供了一种标准格式来传递模型参数,使得模型可以在不同设备(如本地服务器、云端或边缘设备)上部署。
版本控制:通过保存状态字典,可以对模型的不同版本进行管理和比较。
深度学习框架 PyTorch 中,状态字典(state_dict) 是一个非常重要的概念,它用于保存和加载模型的参数。状态字典本质上是一个 Python 字典对象,其中包含了模型的所有可训练参数(如权重和偏置)以及优化器的状态信息。
状态字典的组成
参数名称(Key):以字符串形式表示,反映了参数在模型中的层次结构。例如,‘conv1.weight’ 表示第一层卷积层的权重。
参数值(Value):对应于参数名称的 Tensor 对象,包含了模型的权重和偏置信息。
状态字典的作用
保存和加载模型参数:状态字典可以将模型的参数保存到文件中,并在需要时加载这些参数,从而恢复模型的训练状态。
支持断点训练:在训练过程中,可以保存状态字典以记录当前的训练进度。如果训练中断,可以加载之前保存的状态字典继续训练。
模型部署:状态字典提供了一种标准格式来传递模型参数,使得模型可以在不同设备(如本地服务器、云端或边缘设备)上部署。
版本控制:通过保存状态字典,可以对模型的不同版本进行管理和比较。
13、pytorch保存和加载模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考
https://blog.csdn.net/shinuone/article/details/127289512
https://blog.csdn.net/jiaoyangwm/article/details/80011656


http://www.ppmy.cn/devtools/152237.html

相关文章

【嵌入式开发】stm32 st-link 烧录

使用 ST-Link 烧录 STM32 的程序可以通过多种工具实现,例如 STM32CubeProgrammer、Keil、IAR、以及 OpenOCD。以下是通用的步骤说明: 准备工作 硬件准备 确保 ST-Link 调试器与 STM32 芯片引脚正确连接: SWDIO (SWD 数据线) 接至 STM32 的 SW…

基于Linux系统指令使用详细解析

一 Linux系统常用操作命令编辑快捷 1.1终端快捷键: Ctrl a/Home 切换到命令行开始 Ctrl e/End 切换到命令行末尾 Ctrl l 清除屏幕内容,效果等同于 clear Ctrl u 清除剪切光标之前的内容 Ctrl k 剪切清除光标之后的内容 Ctrl y 粘贴刚才所删…

swin transformer中相对位置编码解析

在论文中,作者发现相对位置编码的效果会更好一些。 代码的实现为: # get pair-wise relative position index for each token inside the windowcoords_h torch.arange(self.window_size[0])coords_w torch.arange(self.window_size[1])coords tor…

51c自动驾驶~合集48

我自己的原文哦~ https://blog.51cto.com/whaosoft/13133866 #UDMC 考虑轨迹预测的统一决策控制框架 论文:https://arxiv.org/pdf/2501.02530 代码:​​https://github.com/henryhcliu/udmc_carla.git​​ 1. 摘要 当前的自动驾驶系统常常在确…

Java 8 Stream API

文章目录 Java 8 Stream API1. Stream2. Stream 的创建3. 常见的 Stream 操作3.1 中间操作3.2 终止操作 4. Stream 的并行操作 Java 8 Stream API Java 8 引入了 Stream API,使得对集合类(如 List、Set 等)的操作变得更加简洁和直观。Stream…

gitignore忽略已经提交过的

已经在.gitignore文件中添加了过滤规则来忽略bin和obj等文件夹,但这些文件夹仍然出现在提交中,可能是因为这些文件夹在添加.gitignore规则之前已经被提交到Git仓库中了。要解决这个问题,您需要从Git的索引中移除这些文件夹,并确保…

1161 Merging Linked Lists (25)

Given two singly linked lists L1​a1​→a2​→⋯→an−1​→an​ and L2​b1​→b2​→⋯→bm−1​→bm​. If n≥2m, you are supposed to reverse and merge the shorter one into the longer one to obtain a list like a1​→a2​→bm​→a3​→a4​→bm−1​⋯. For ex…

如何用selenium来链接并打开比特浏览器进行自动化操作(1)

前言 本文是该专栏的第76篇,后面会持续分享python爬虫干货知识,记得关注。 本文,笔者将基于“比特浏览器”,通过selenium来实现链接并打开比特浏览器,进行相关的“自动化”操作。 值得一提的是,在本专栏之前,笔者有详细介绍过“使用selenium或者pyppeteer(puppeteer)…