深度学习:(八)深层神经网络参数与流程

ops/2024/10/22 14:28:47/

深层神经网络

符号规定

  • L L L :表示神经网络的层数;
  • l l l :表示第几层;
  • n [ l ] n^{[~l~]} n[ l ] :表示第 l l l 层的节点数;
  • a [ l ] a^{[~l~]} a[ l ] :表示第 l l l 层中的激活函数(泛指);
  • a [ l ] = g [ l ] ( z [ l ] ) a^{[~l~]}=g^{[~l~]}(z^{[~l~]}) a[ l ]=g[ l ](z[ l ]) :表示第 l l l 层中的激活函数(泛指);
  • W [ l ] W^{[~l~]} W[ l ] :表示第 l l l 层的参数 w w w 的集合;
  • b [ l ] b^{[~l~]} b[ l ] :表示第 l l l 层的参数 b b b 的集合。

前向传播和反向传播都类似之前的笔记。

流程图

在这里插入图片描述

前向传播有输入数据 x x x ,反向传播的输入数据是 d a [ L ] da^{[~L~]} da[ L ] ,即输出层(第 L L L 层)的输出,在向量化代码中,直接展示出来的结果是损失函数 L ( y ^ , y ) L(\widehat{y},y) L(y ,y)

因为 d a [ L ] = − y a + 1 − y 1 − a da^{[~L~]}=-\frac{y}{a}+\frac{1-y}{1-a} da[ L ]=ay+1a1y ,而 L ( y ^ , y ) L(\widehat{y},y) L(y ,y) y ^ \widehat{y} y a a a)的导数,正好等于这个结果。因此将损失函数对 y ^ \widehat{y} y a a a)求导,可得出 d a [ L ] da^{[~L~]} da[ L ] ,然后代入反向传播链的输入,开始迭代,如上图所示。

向量化时 d a [ L ] da^{[~L~]} da[ L ] 需改为 d A [ L ] dA^{[~L~]} dA[ L ] d A [ L ] = ( d a [ 1 ] , d a [ 2 ] , . . . , d a [ m ] ) dA^{[~L~]}=(da^{[~1~]},da^{[~2~]},...,da^{[~m~]}) dA[ L ]=(da[ 1 ],da[ 2 ],...,da[ m ])

为何 z [ l ] z^{[~l~]} z[ l ]是反向传播的一个输入参数

∵ a [ l ] = σ ( z [ l ] ) = σ ( W [ l ] a [ l − 1 ] + b [ l ] ) ∵ d L d a [ l − 1 ] = d L d a [ l ] ⋅ d a [ l ] d a [ l − 1 ] = d a [ l ] ⋅ σ ′ ( W [ l ] a [ l − 1 ] + b [ l ] ) W [ l ] ⋅ d a [ l − 1 ] ∴ d a [ l − 1 ] = d a [ l ] ⋅ σ ′ ( z [ l ] ) W [ l ] ⋅ d a [ l − 1 ] \begin{align*} ∵a^{[~l~]}=\sigma&(z^{[~l~]})=\sigma(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})\\ ∵\frac{dL}{da^{[~l-1~]}}&=\frac{dL}{da^{[~l~]}}·\frac{da^{[~l~]}}{da^{[~l-1~]}}\\ &=da^{[~l~]}·\sigma^{'}(W^{[~l~]}a^{[~l-1~]}+b^{[~l~]})W^{[~l~]}·da^{[~l-1~]}\\ ∴da^{[~l-1~]}&=da^{[~l~]}·\sigma^{'}(z^{[~l~]})W^{[~l~]}·da^{[~l-1~]} \end{align*} a[ l ]=σda[ l1 ]dLda[ l1 ](z[ l ])=σ(W[ l ]a[ l1 ]+b[ l ])=da[ l ]dLda[ l1 ]da[ l ]=da[ l ]σ(W[ l ]a[ l1 ]+b[ l ])W[ l ]da[ l1 ]=da[ l ]σ(z[ l ])W[ l ]da[ l1 ]

核对矩阵的维度

向量化前的单个样本
  • 前向传播:

    W [ l ] W^{[~l~]} W[ l ] :维度为 ( n [ l ] , n [ l − 1 ] ) (n^{[~l~]},n^{[~l-1~]}) (n[ l ],n[ l1 ])

    z [ l ] z^{[~l~]} z[ l ] :维度为 ( n [ l ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

    a [ l ] a^{[~l~]} a[ l ] :维度为 ( n [ l ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

    b [ l ] b^{[~l~]} b[ l ] :维度为 ( n [ l ] , 1 ) (n^{[~l~]},1) (n[ l ],1)

  • 反向传播:

    d W [ l ] dW^{[~l~]} dW[ l ] W [ l ] W^{[~l~]} W[ l ] 同维度;

    d b [ l ] db^{[~l~]} db[ l ] b [ l ] b^{[~l~]} b[ l ] 同维度。

向量化后的整个训练集
  • 前向传播:

    X ( A [ 0 ] ) X(A^{[~0~]}) X(A[ 0 ]) :维度为 ( n [ 0 ] , m ) (n^{[~0~]},m) (n[ 0 ],m)

    W [ l ] W^{[~l~]} W[ l ] :维度为 ( n [ l ] , n [ l − 1 ] ) (n^{[~l~]},n^{[~l-1~]}) (n[ l ],n[ l1 ])

    b [ l ] b^{[~l~]} b[ l ] :维度为 ( n [ l ] , 1 ) (n^{[~l~]},1) (n[ l ],1) ;# 要广播

    Z [ l ] Z^{[~l~]} Z[ l ] :维度为 ( n [ l ] , m ) (n^{[~l~]},m) (n[ l ],m)

    A [ l ] A^{[~l~]} A[ l ] :维度为 ( n [ l ] , m ) (n^{[~l~]},m) (n[ l ],m)

  • 反向传播:

    d W [ l ] dW^{[~l~]} dW[ l ] W [ l ] W^{[~l~]} W[ l ] 同维度;

    d b [ l ] db^{[~l~]} db[ l ] b [ l ] b^{[~l~]} b[ l ] 同维度;

    d Z [ l ] dZ^{[~l~]} dZ[ l ] Z [ l ] Z^{[~l~]} Z[ l ] 同维度;

    d A [ l ] dA^{[~l~]} dA[ l ] A [ l ] A^{[~l~]} A[ l ] 同维度。

超参数:

能控制参数 w w w b b b 的参数,需人为设置。

  • 学习率 α \alpha α
  • 梯度下降法循环次数;
  • 隐层数 L L L
  • 隐藏层的单元(节点)数;
  • 激活函数类型。

这些参数需要不断测试,实时评估损失函数(横坐标越大,纵坐标越小)。


http://www.ppmy.cn/ops/121162.html

相关文章

正态分布的极大似然估计一个示例,详细展开的方程求解步骤

此示例是 什么是极大似然估计 中的一个例子,本文的目的是给出更加详细的方程求解步骤,便于数学基础不好的同学理解。 目标 假设我们有一组样本数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1​,x2​,…,xn​,它们来自一个正态分布 N…

项目:微服务即时通讯系统客户端(基于C++QT)]四,中间界面搭建和逻辑准备

四,中间界面搭建 前言:当项目越来越复杂的时候,或许画草图是非常好的选择 一,初始化中间窗口initMidWindow void mainWidget::initMidWindow() {//使用网格布局进行管理QGridLayout* layout new QGridLayout();//距离上方 20px 的距离&…

如何用深度神经网络预测潜在消费者

1. 模型架构 本项目采用的是DeepFM模型,其结构结合了FM(因子分解机)与深度神经网络(DNN),实现了低阶与高阶特征交互的有效建模。模型分为以下几层: 1.1 FM部分(因子分解机层&#…

Python Web 与量子计算

Python Web 与量子计算 目录 ⚛️ 量子计算的基础🐍 使用 Python 调用量子计算🌐 实现量子算法的 Web 接口🛠️ 实战案例:量子计算在金融领域的应用 1. ⚛️ 量子计算的基础 量子计算是利用量子力学原理进行信息处理的一种新兴…

【cache】浅析四种常用的缓存淘汰算法 FIFO/LRU/LFU/W-TinyLFU

本文浅析淘汰策略与工作中结合使用、选取,并非针对算法本身如何实现的 文章目录 FIFOLFULRUW-TinyLFU实践与优化监控与调整 FIFO first input first output , 先进先出,即最早存入的元素最先取出, 典型数据结构代表:…

初识Linux · 自主Shell编写

目录 前言: 1 命令行解释器部分 2 获取用户命令行参数 3 命令行参数进行分割 4 执行命令 5 判断命令是否为内建命令 前言: 本文介绍是自主Shell编写,对于shell,即外壳解释程序,我们目前接触到的命令行解释器&am…

家长们,你们认为孩子沉迷游戏严重还是沉迷Linux严重呢

matrix禁食 ​ 计算机技术与软件专业技术资格证持证人 ​ 关注 谢邀 Hieronymus no-sh 218 人赞同了该回答 十年前,你还能得到一个自己能控制的计算机系统,现在,窗口期早走过了。普通人不懂软件,但因该懂人心啊,人心一…

【力扣 | SQL题 | 每日三题】力扣1264, 1113, 1098, 1082

1. 力扣1264:页面推荐 1.1 题目: 朋友关系列表: Friendship ------------------------ | Column Name | Type | ------------------------ | user1_id | int | | user2_id | int | ------------------------ (user…