2024-11-27 学习人工智能的Day32 神经网络与反向传播

server/2024/12/2 4:01:56/

一、神经网络

神经网络神经网络(Neural Networks)是一种模拟人脑神经元网络结构的计算模型,用于处理复杂的模式识别、分类和预测等任务。

人工神经元是神经网络的基础构建单元,模仿了神武神经元的工作原理,核心功能是接收输入信号,经过加权求和和非线性激活函数处理后输出结果。

  1. 人工神经元
    • 输入:神经元接收多个输入,每个输入有一个对应的权重。
    • 加权求和:计算输入的加权和,添加偏置项。
    • 激活函数:对加权和结果应用激活函数,引入非线性能力。
  2. 神经网络结构
    • 输入层:接收数据,不进行计算。
    • 隐藏层:提取特征,通过多层堆叠实现复杂变换。
    • 输出层:生成预测结果或分类。
  3. 全连接网络
    • 每层神经元与上一层的所有神经元相连。
    • 常见问题:参数量大,容易过拟合;对高维数据局部特征捕捉能力差。

先说一下参数的初始化,对于线性回归模型来说,在进行正向传播时,不能缺失的值有构成前向传播方程的偏置和权重这两个值,而对于输入层来说,就是传入y = w*x+b中的x,而为了方便传播,在输入层中就会将传入的x引入这个方程来进行定义的线性变换,但是输出层只负责最简单的线性变化。

在这个线性变化过程中就有一个问题,这个方程中的w和b哪里来?

由于之前学过线性回归的时候我们知道,这个前向传播的方程是为了算出预测值来与实际数据进行损失计算然后通过反向传播来更新梯度值进行简单的梯度下降来逼近我们希望求得的权重和偏置,所以输出层的权重和偏置是由我们自定义的,而torch中就提供了很多种初始化的方法。接下来说几个例子。

全零初始化

因为会破坏对称性,一般治用于初始化偏置

import torch
import torch.nn as nndef test():linear = nn.Linear(in_feature=6,out_feature=4)nn.init.zeros_(linear.weight)print(linear.weight)if __name__ == "main":test()

然后还有全1初始化就没必要再写一遍了。

任意常数初始化

import torch
import torch.nn as nndef test002():# 2. 固定值参数初始化linear = nn.Linear(in_features=6, out_features=4)# 初始化权重参数nn.init.constant_(linear.weight, 0.63)# 打印权重参数print(linear.weight)passif __name__ == "__main__":test002()

防止了参数为0的情况出现,但是运用在权重上依旧避免不了破坏对称性的问题。

随机初始化

最基本的初始化方式,避免破坏对称性

import torch
import torch.nn as nndef test001():# 1. 均匀分布随机初始化linear = nn.Linear(in_features=6, out_features=4)# 初始化权重参数nn.init.uniform_(linear.weight)# 打印权重参数print(linear.weight)if __name__ == "__main__":test001()

Xavier初始化

也叫做Glorot初始化。

方法:根据输入和输出神经元的数量来选择权重的初始值。权重从以下分布中采样:
W ∼ U ( − 6 n i n + n o u t , 6 n i n + n o u t ) W\sim\mathrm{U}\left(-\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}},\frac{\sqrt{6}}{\sqrt{n_\mathrm{in}+n_\mathrm{out}}}\right) WU(nin+nout 6 ,nin+nout 6 )
或者
W ∼ N ( 0 , 2 n i n + n o u t ) W\sim\mathrm{N}\left(0,\frac{2}{n_\mathrm{in}+n_\mathrm{out}}\right) WN(0,nin+nout2)

N ( 0 , std 2 ) N ( 0 , std 2 ) \mathcal{N}(0, \text{std}^2)\mathcal{N}(0, \text{std}^2) N(0,std2)N(0,std2)

其中 n in n_{\text{in}} nin 是当前层的输入神经元数量, n out n_{\text{out}} nout是输出神经元数量。

优点:平衡了输入和输出的方差,适合Sigmoid和 Tanh 激活函数。

应用场景:常用于浅层网络或使用Sigmoid、Tanh 激活函数的网络。

import torch
import torch.nn as nndef test007():# Xavier初始化:正态分布linear = nn.Linear(in_features=6, out_features=4)nn.init.xavier_normal_(linear.weight)print(linear.weight)# Xavier初始化:均匀分布linear = nn.Linear(in_features=6, out_features=4)nn.init.xavier_uniform_(linear.weight)print(linear.weight)if __name__ == "__main__":test007()

二、激活函数

就我自己的理解来是,进入每个神经元时,就是一次线性变换再输出给下一个神经元的时候则是通过非线性变化的激活函数来提高数据的分离度,而如果不设置激活函数也是能传递的,只是他始终进行的线性的变化,而线性数据的一个缺点就是无法表示复杂的非线性的关系,如异或问题。而引入激活函数的优点还有

  1. 通过升维来提取更改层次的抽象特征
  2. 控制输出值的范围,稳定梯度传播
  3. 动态调整神经元的激活状态,增强表达能力
  4. 实现逼近任意复杂函数的能力

下面是常用的激活函数,

  1. 常见激活函数
    • Sigmoid:将输出映射到 (0,1)(0, 1)(0,1),适合二分类输出层;易出现梯度消失。
    • Tanh:将输出映射到 (−1,1)(-1, 1)(−1,1),适合隐藏层,梯度较大,缓解梯度消失问题。
    • ReLU:输出正值本身,负值为零,计算简单,适合深层网络;存在神经元死亡问题。
    • Leaky ReLU:改进 ReLU,为负值引入小斜率,避免神经元死亡。
    • Softmax:将输出映射为概率分布,适合多分类任务的输出层。
  2. 选择建议
    • 隐藏层优先选择 ReLU 或其变体。
    • 输出层根据任务选择:二分类用 Sigmoid,多分类用 Softmax,回归任务用线性激活。

由于激活函数的公式过多,就不说了。

三、损失函数

这里的损失函数与之前学习反向传播时的概念无差异,只是根据不同的任务推出了不同损失函数去更好的适配这些任务的回归。

  1. 线性回归损失

    • MAE:平均绝对误差,对异常值鲁棒。
    • MSE:均方误差,对大误差敏感。
    • Smooth L1:结合 MAE 和 MSE 的优点,平滑过渡。
  2. 分类损失

    • 交叉熵损失:

      • 多分类问题与 Softmax 搭配。
      • 衡量预测分布与真实分布的差异。
    • 二分类交叉熵:

      • 二分类问题与 Sigmoid 搭配。
      • 用于衡量模型对两个类别的预测效果。
  3. 总结

    • 回归任务:MSE、Smooth L1。
    • 二分类任务:Sigmoid + 二分类交叉熵。
    • 多分类任务:Softmax + 交叉熵。

反向传播的api实现

由于上面所有的都是为了反向传播而服务,所以单论以上的所有都是理论上的,只有在神经网络中实现反向传播才会真正的运用到上面所有的知识。

import torch
import torch.nn as nn
import torch.optim as optimclass Net(nn.Module):def __init__(self):super(Net, self).__init__()self.linear1 = nn.Linear(2, 2)self.linear2 = nn.Linear(2, 2)# 网络参数初始化self.linear1.weight.data = torch.tensor([[0.15, 0.20], [0.25, 0.30]])self.linear2.weight.data = torch.tensor([[0.40, 0.45], [0.50, 0.55]])self.linear1.bias.data = torch.tensor([0.35, 0.35])self.linear2.bias.data = torch.tensor([0.60, 0.60])def forward(self, x):x = self.linear1(x)x = torch.sigmoid(x)x = self.linear2(x)x = torch.sigmoid(x)return xif __name__ == "__main__":inputs = torch.tensor([[0.05, 0.10]])target = torch.tensor([[0.01, 0.99]])# 获得网络输出值net = Net()output = net(inputs)# 计算误差loss = torch.sum((output - target) ** 2) / 2# 优化方法optimizer = optim.SGD(net.parameters(), lr=0.5)# 梯度清零optimizer.zero_grad()# 反向传播loss.backward()# 打印(w1-w8)观察w5、w7、w1 的梯度值是否与手动计算一致print(net.linear1.weight.grad.data)print(net.linear2.weight.grad.data)#更新梯度optimizer.step()# 打印更新后的网络参数print(net.state_dict())

这个程序中没有用到上面说到的这些初始化,而是自定义传参初始化。


http://www.ppmy.cn/server/146612.html

相关文章

Supervisor使用教程

文章目录 [toc] Supervisor使用教程平台要求 安装supervisor本文测试的时候是使用Linux的yum安装的(其它方式未做测试)加入系统守护进行 Supervisor使用教程 在项目中,经常有脚本需要常驻运行的需求。以PHP脚本为例,最简单的方式…

Spring Boot教程之十二: Spring – RestTemplate

Spring – RestTemplate 由于流量大和快速访问服务,REST API越来越受欢迎。REST 不是一种协议或标准方式,而是一组架构约束。它也被称为 RESTful API 或 Web API。当发出客户端请求时,它只是通过 HTTP 将资源状态的表示传输给请求者或端点。传…

SVN迁移至Git,保留commit提交记录

SVN迁移至Git 如何将 SVN 仓库迁移到 Git 并保留提交记录一、生成userinfo.txt二. 使用 git svn clone 命令迁移 SVN 到 Git2.1. 基本命令格式2.2. 示例:从 SVN 克隆到 Git参数说明:2.3 执行的过程遇到的窗口2.4. 迁移过程 三. 将 Git 仓库推送到远程 Gi…

源代码定制编译:构建理想的库 以curl为例

文章目录 源代码curl开发环境下载地址制定理想的库初级进阶如何知道选项名称交叉编译交叉编译工具链配置编译环境设置目标架构库和头文件路径编译代码 源代码 我们在日常中会接触到比较多第三方库,比如 网络库相关: libevent、mongoose、curl图形界面&…

Oracle 19c RAC单节点停机维护硬件

背景 RAC 环境下一台主机硬件光纤卡不定时重启,造成链路会间断几秒,期间数据库会话响应时间随之变长,该光纤卡在硬件厂商的建议下,决定停机更换备件,为保证生产影响最小,决定停掉该节点,另外节…

CSS定位

定位 其中,绝对定位和固定定位会脱离文档流 设置定位之后:可以使用四个方向值进行调整位置:left、top、right、bottom 相对定位 温馨提示 设置定位之后,相对定位和绝对定位他是相对于具有定位的父级元素进行位置调整&#xff0c…

设置Mysql5.6允许外网访问

设置mysql用户支持外网访问步骤: 需要使用root权限登录mysql,更新mysql.user表,设置指定用户的Host字段为%,默认一般为127.0.0.1或者localhost。 1.登录数据库 1 mysql -u root -p 输入密码 1 mysql> use mysql; 2.查询hos…

python股票数据分析(Pandas)练习

需求: 使用pandas读取一个CSV文件,文件内容包括股票名称、价格和交易量。完成以下任务: 找出价格最高的股票; 计算总交易量; 绘制价格折线图。 代码实现: import pandas as pd import matplotlib.pyplot …