一、反向传播基本原理(b3)
反向传播要点:当我们不确定像b3这样的参数时,我们使用链式法则计算残差平方和关于b3的导数,然后将b3从一个初始值开始,通过梯度下降法来调整参数,进而得出最佳值。
因此我们要求b3什么时候最佳,就是求什么时候残差平方和关于b3的导数什么时候为0。
根据链式法则,得到以下式子:
有了这个式子,对于每一个b3都可以求出每个Predicted,就可以求出相应的残差平方和。然后设置一个初始值,根据梯度下降法,找出最佳的b3就可以。
二、同时优化多个参数(W3W4b3)
假设W3W4b3未知。
(一)一些定义
在本例中,我们使用的激活函数是softplus函数,因此代入可以得到y(1,i)和y(2,i) 。
(二)反向传播过程
求出来导数的表达式后,设置三个的初始值。
根据已知值可以算出来y(1,1)y(1,2)y(1,3) 和y(2,1)y(2,2)y(2,3),然后根据初始值可以算出来Predicted1 和Predicted2 和Predicted3 。进而可以算出来残差平方和。然后再根据梯度下降法继续算下去。
具体动画观看:【官方双语】反向传播详解,第1部分:同时优化多个参数 第17分钟。
三、同时优化所有参数
(一)关于W1
(二)关于b1
(三)关于其他
(四)反向传播
在这个例子中,我们从标准正态分布中选取数字赋值给权重W。(这只是选取初始值的方法之一),偏差项b一般从0开始。
然后对于每一个参数进行梯度下降,直到最后预测值不会有太大改善。
观看动画 :【官方双语】反向传播详解 第2部分:疯狂使用链式法则 第11:30处。