hw3

news/2025/1/15 23:45:28/

1

a.

∂ y i ∂ x j = ∂ ( σ ( W i 1 x 1 + . . . + W i d x d ) ) ∂ x j = ∂ ( 1 1 + e − ( W i 1 x 1 + . . . + W i d x d ) ) ∂ x j = e − ( W i 1 x 1 + . . . + W i d x d ) W i j ( 1 + e − ( W i 1 x 1 + . . . + W i d x d ) ) 2 \frac{\partial y_i}{\partial x_j}\newline =\frac{\partial(\sigma(W_{i1}x_1+...+W_{id}x_d))}{\partial x_j}\newline =\frac{\partial(\frac{1}{1+e^{-(W_{i1}x_1+...+W_{id}x_d)}})}{\partial x_j}\newline =\frac{e^{-(W_{i1}x_1+...+W_{id}x_d)}W_{ij}}{(1+e^{-(W_{i1}x_1+...+W_{id}x_d)})^2} xjyi=xj(σ(Wi1x1+...+Widxd))=xj(1+e(Wi1x1+...+Widxd)1)=(1+e(Wi1x1+...+Widxd))2e(Wi1x1+...+Widxd)Wij
let
q i = e − ( W i 1 x 1 + . . . + W i d x d ) ( 1 + e − ( W i 1 x 1 + . . . + W i d x d ) ) 2 q_i=\frac{e^{-(W_{i1}x_1+...+W_{id}x_d)}}{(1+e^{-(W_{i1}x_1+...+W_{id}x_d)})^2} qi=(1+e(Wi1x1+...+Widxd))2e(Wi1x1+...+Widxd)

∂ Y ∂ X = [ q 1 W 11 . . . q 1 W 1 d . . . . . . . . . q n W n 1 . . . q n W n d ] = [ q 1 . . . 0 . . . . . . . . . 0 . . . q n ] ∗ [ W 11 . . . W 1 d . . . . . . . . . W n 1 . . . W n d ] \frac{\partial Y}{\partial X}= \left[ \begin{matrix} q_1W_{11} & ... & q_1W_{1d} \\ ... & ... &... \\ q_nW_{n1} & ... & q_nW_{nd} \end{matrix} \right]\newline =\left[ \begin{matrix} q_1 & ... & 0\\ ... & ... &... \\ 0 & ... & q_n \end{matrix} \right]*\left[ \begin{matrix} W_{11} & ... & W_{1d} \\ ... & ... &... \\ W_{n1} & ... & W_{nd} \end{matrix} \right] XY=q1W11...qnWn1.........q1W1d...qnWnd=q1...0.........0...qnW11...Wn1.........W1d...Wnd
calculate

l e t z = W x σ ′ ( z i ) = q i σ ′ ( z ) = [ q 1 q 2 . . . q n ] let \space z = Wx\newline \sigma_{'}(z_i)=q_i\newline \sigma_{'}(z) =\left[ \begin{matrix} q_1 \\ q_2 \\ ... \\ q_n \\ \end{matrix} \right] let z=Wxσ(zi)=qiσ(z)=q1q2...qn

calculate

∂ Y ∂ X = d i a g ( σ ′ ) ∗ W \frac{\partial Y}{\partial X}=diag(\sigma^{'})*W XY=diag(σ)W

b.Derive the quantity ∂ L ∂ W = ∑ t = 0 T ∑ k = 1 t ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W \frac{\partial L}{\partial W}=\sum_{t=0}^T\sum_{k=1}^t\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W} WL=t=0Tk=1thtLthkhtWhk

根据连式法则:
h k = f 1 ( x ; W ) h t = f 2 ( y 1 , W 2 ) L t = L o s s ( h t , h G T ) 于 是 有 : ∂ L t ∂ W 1 ∂ L t ∂ W 2 ∂ L t ∂ W 2 = ( ∂ L t ∂ h t ) ( ∂ h t ∂ W 2 ) ∂ L t ∂ W = ( ∂ L t ∂ h t ) ( ∂ h k ∂ W ) L t W = ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W 于 是 直 到 T 次 有 : ∂ L ∂ W = ∑ t = 0 T ∑ k = 1 t ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W h_k=f_1(x;W)\newline h_t=f_2(y_1,W_2)\newline L_t=Loss(h_t,h_{GT})\newline 于是有:\newline \frac{\partial L_t}{\partial W_1}\frac{\partial L_t}{\partial W_2}\newline \frac{\partial L_t}{\partial W_2}=(\frac{\partial L_t}{\partial h_t})(\frac{\partial h_t}{\partial W_2})\newline \frac{\partial L_t}{\partial W}=(\frac{\partial L_t}{\partial h_t})(\frac{\partial h_k}{\partial W})\newline \frac{L_t}{W}=\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}\newline 于是直到T次有: \newline \frac{\partial L}{\partial W}=\sum_{t=0}^T\sum_{k=1}^t\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W} hk=f1(x;W)ht=f2(y1,W2)Lt=Loss(ht,hGT)W1LtW2LtW2Lt=(htLt)(W2ht)WLt=(htLt)(Whk)WLt=htLthkhtWhkTWL=t=0Tk=1thtLthkhtWhk

2.

a.

当T=3:
∂ L ∂ W = ∑ t = 0 3 ∑ k = 1 t ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W = ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W + ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W + ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W + ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W + ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W + ∂ L t ∂ h t ∂ h t ∂ h k ∂ h k ∂ W \frac{\partial L}{\partial W}=\sum_{t=0}^3\sum_{k=1}^t\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}\newline =\frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}+ \frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}+ \frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}\newline+ \frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}+ \frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W}+ \frac{\partial L_t}{\partial h_t}\frac{\partial h_t}{\partial h_k}\frac{\partial h_k}{\partial W} WL=t=03k=1thtLthkhtWhk=htLthkhtWhk+htLthkhtWhk+htLthkhtWhk+htLthkhtWhk+htLthkhtWhk+htLthkhtWhk

b.

M n = M n − 1 M M = Q A Q − 1 M n = M n − 1 Q A Q − 1 = M n − 2 Q A Q − 1 Q A Q − 1 = M n − 2 Q A 2 Q − 1 . . . = Q A n Q − 1 M^n=M^{n-1}M\newline M=QAQ^{-1}\newline M^n=M^{n-1}QAQ^{-1}\newline =M^{n-2}QAQ^{-1}QAQ^{-1}\newline =M^{n-2}QA^2Q^{-1}\newline ...\newline =QA^nQ^{-1} Mn=Mn1MM=QAQ1Mn=Mn1QAQ1=Mn2QAQ1QAQ1=Mn2QA2Q1...=QAnQ1

c.

A 30 = [ 0. 9 30 0 0 0. 4 30 ] w 30 = [ 0.6 ∗ 0. 9 30 0.8 ∗ 0. 4 30 0.8 ∗ 0. 9 30 0.6 ∗ 0. 4 30 ] A^{30}=\left[ \begin{matrix} 0.9^{30} & 0 \\ 0 & 0.4^{30} \\ \end{matrix} \right] w^{30}=\left[ \begin{matrix} 0.6*0.9^{30} & 0.8*0.4^{30} \\ 0.8*0.9^{30} & 0.6*0.4^{30} \\ \end{matrix} \right] A30=[0.930000.430]w30=[0.60.9300.80.9300.80.4300.60.430]
分析:通过计算矩阵的 30 次方最后矩阵的值都会趋于 0,如果特征值的绝对值都小于1则在矩阵n次方后,特征值会趋近于0,所以计算结果趋近于0,但是如果一个特征值大于1,那么在指数增长下,对应的列会趋近于无穷。

3.

a.

三个函数都是LSTMs中的门函数,用于保护和控制单元的状态。每一个门函数其基础函数都是sigmoid函数。其中 i t , o t i_t,o_t it,ot在LSTMs中起到控制状态信息存储的功能。
f t f_t ft:遗忘层,它对每一个 C t 1 C_{t1} Ct1生成一个0到1之间的数,1表示完全保留,0表示完全放弃。
i t i_t it:输入层,生成0到1之间的数,从而决定要更新的值,并且在tanh层创建新的候选值,添加到里面,之后将两个结合,创建一个更新。
o t o_t ot:输出层,生成-1到1之间的数,决定单元状态中哪一个需要被输出,在经过tanh之后,利用sigmoid函数相乘,即可得到对应需要的输出。

b.

因为 f t , i t , o t 总是非负数, 并且取值范围为 [0,1],由于 f t , i t , o t 都是属于 sigmoid 函
数,则对应的值输出区间为 [0,1], 其余函数由于与 tanh 函数有关,取值范围在 [-1,1] 之
间。

c.

因为 ∂ C t ∂ C k = ∏ i = k + 1 t ∂ C t ∂ C t − 1 \frac{\partial C_t}{\partial C_k}=\prod_{i=k+1}^t\frac{\partial C_t}{\partial C_{t-1}} CkCt=i=k+1tCt1Ct
所以由 f t = 1 , i t = 0 f_t=1,i_t=0 ft=1,it=0可以得:
C t = f t ⊗ C t − 1 + i t ⊗ C t ‾ C t = C t − 1 C_t=f_t\otimes C_{t-1}+i_t\otimes\overline{C_t}\newline C_t=C_{t-1}\newline Ct=ftCt1+itCtCt=Ct1
所以:

∂ C t ∂ C k = ∏ i = k + 1 t ∂ C t ∂ C t − 1 = ∏ i = k + 1 t 1 \frac{\partial C_t}{\partial C_k}=\prod_{i=k+1}^{t}\frac{\partial C_t}{\partial C_{t-1}}\newline =\prod_{i=k+1}^{t}1 CkCt=i=k+1tCt1Ct=i=k+1t1


http://www.ppmy.cn/news/341420.html

相关文章

诡异的启动信息:a disk read error occurred

现象 联想台式机,原系统是安装在机械硬盘上,但由于性能原因,需要替换到固态硬盘上 固态硬盘三星的750EVO,电脑联想的H3000(bios升级到2016/10) 使用diskgenius对分区进行复制操作后,无法对固态硬盘进行引导 引导错误:a disk read error occurred 但是使用大白菜PE进行硬盘…

华3r2900g3服务器配置信息,H3C UniServer R2900 G3

本手册为产品通用资料。对于定制化产品,请用户以产品实际情况为准。 本手册中,所有部件的型号都做了简化(比如删除前缀和后缀)。比如内存型号DDR4-2666-8G-1Rx8-R,代表用户可能看到的以下型号:UN-DDR4-2666-8G-1Rx8-R、UN-DD…

r4900g3系统安装linux_H3C UniServer R4900 G3

本手册为产品通用资料。对于定制化产品,请用户以产品实际情况为准。 本手册中,所有部件的型号都做了简化(比如删除前缀和后缀)。比如内存型号DDR4-2666-8G-1Rx8-R,代表用户可能看到的以下型号:UN-DDR4-2666-8G-1Rx8-R、UN-DDR4-2666-8G-1Rx8-R-F、UN-DDR4-2666-8G-1Rx…

Hbase 协处理器

一、简述 在使用 HBase 时,如果你的数据量达到了数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求。在这种情况下,协处理器&#xff08…

windows 服务程序和桌面程序集成(三)UDP监控工具

系列文章目录链接: windows 服务程序和桌面程序集成(一)概念介绍windows 服务程序和桌面程序集成(二)服务程序windows 服务程序和桌面程序集成(三)UDP监控工具windows 服务程序和桌面程序集成&…

AXI协议整理

原文出处 http://blog.csdn.net/rill_zhen/article/details/44219593/ 总线信号分两种。valid/ready协议 , 1,valid/ready协议 axi协议是典型的基于valid/ready协议的总线协议。 valid/ready协议的优势就是master和slave的相对独立性比较好。 对于…

H2内嵌数据库的使用

文章目录 [toc]H2内嵌数据库的使用运行方式JDBC URL Java应用中的使用操作实例 Java web 应用中的使用H2服务的启动1.命令行启动服务2.Servlet的方式3.maven插件方式 数据库初始化1.maven方式2.spring方式 项目路径 H2内嵌数据库的使用 H2是一个开源的嵌入式数据库引擎&#xf…

wx2540h配置教程_H3C wx3000系列配置

配置举例 3.1 组网需求 Ap---------3024----------- 三层设备 3.3 配置步骤 3.3.1 配置 AC 1. 主要配置步骤 (1) 配置 AC 的地址 system-view [AC]interface vlan 1 //ap 管理地址网关 [AC-Vlan-interface1]ip address 192.168.0.1 24 [AC-Vlan-interface1]quit [AC]vlan 10…