深度学习-自动求导

向量链式法则
- 标量链式法则
拓展到向量
- 例题1
- 例题2
符号求导
数值求导
自动求导
- 计算图
- 自动求导的两种模式
- - 链式法则
  - 正向累积（从x出发）
  - 反向累积（反向传递--先计算最终的函数即y）
  - 反向累积总结
自动求导
计算y关于x的梯度，使用requires_grad(True)
- 计算y
通过调用反向传播函数来自动计算y关于x每个分量的梯度
PyTorch会累积梯度，使用zero_()函数清除梯度
批量中每个样本单独计算的偏导数之和
将某些计算移动到记录的计算图之外
即使构建函数的计算图通过Python控制流仍可以计算变量的梯度
问题
- 多个loss（损失函数）分别反向的时候是不是需要累积梯度？
- 需要正向和反向都要算一遍吗？
- 为什么Pytorch会默认累积梯度？
- 为什么获取.grad前需要backward？

向量链式法则

标量链式法则

在这里插入图片描述

拓展到向量

在这里插入图片描述

例题1

在这里插入图片描述

过程：
在这里插入图片描述

例题2

在这里插入图片描述

过程：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
然后将分解的回代

符号求导

在这里插入图片描述

数值求导

在这里插入图片描述

自动求导

自动求导计算一个函数在指定值上的导数

计算图

将代码分解为操作子
将计算表示成一个无环图
在这里插入图片描述
显示构造

隐式构造

自动求导的两种模式

链式法则

在这里插入图片描述

正向累积（从x出发）

在这里插入图片描述

反向累积（反向传递–先计算最终的函数即y）

在这里插入图片描述

这里的反向先计算z的函数
在这里插入图片描述

反向累积总结

构造计算图
前向：执行图，存储中间结果
反向：从相反方向执行图
去除不需要的枝

在这里插入图片描述

计算复杂度：O(n),n是操作子个数
通常正向和方向的代价类似
内存复杂度：O(n),因为需要存储正向的所有中间结果

正向累积：
它的内存复杂度是O(1),即不管多深我不需要存储它的结果，而反向累积则需要存储。

反向从根节点向下扫，可以保证每个节点只扫一次；
正向从叶节点向上扫，会导致上层节点可能需要被重复扫多次。

（正向中子节点比父节点先计算，因此也无法像反向那样把本节点的计算结果传给每个子节点。）

自动求导

假设我们对函数 y=2 $x^T$ x 求导

import torch
x = torch.arange(4.0)
print(x)

结果：在这里插入图片描述

计算y关于x的梯度，使用requires_grad(True)

import torch
x = torch.arange(4.0, requires_grad=True)
print(x.grad)

结果：在这里插入图片描述

计算y

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
print(y)

结果：在这里插入图片描述

通过调用反向传播函数来自动计算y关于x每个分量的梯度

import torch
x = torch.arange(4.0, requires_grad=True)
print(x)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad) #x.grad访问导数

结果：在这里插入图片描述
y=2 $x^2$ 然后使用求导函数backward（）实质是y导=4x（下面验证）。

import torch
x = torch.arange(4.0, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward() #求导
print(x.grad == 4*x)

结果：在这里插入图片描述

PyTorch会累积梯度，使用zero_()函数清除梯度

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零
y = x.sum()
y.backward() #求导
print(x.grad)

因为求向量的sum（）所以梯度是全1
y是标量
y是对x的的求和：y= $x_1$ + $x_2$ + $x_3$ + $x_4$ 。
对y进行x的偏导：dy/ $dx_1$ ,dy/ $dx_2$ ,dy/ $dx_3$ ,dy/ $dx_4$

在这里插入图片描述

批量中每个样本单独计算的偏导数之和

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零，如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x*x #x是向量，y即向量
print(y) #输出查看
y.sum().backward() #求导
print(x.grad)

梯度（求导）清零：必须先存在梯度，如果没有y.backward()则x.grad.zero_()会报错。
结果：在这里插入图片描述

将某些计算移动到记录的计算图之外

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零，如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量，y即向量
print(y) #输出查看
u = y.detach()#把y当作一个常数，而不是关于x的函数，把它做成u
z = u * x #相当于z=常数*x
z.sum().backward()
print(x.grad == u)

结果：这里的z就是为了后续求导检查是否与detach()后一致。
在这里插入图片描述

import torch
x = torch.arange(4.0, dtype=torch.float32, requires_grad=True)
y = 2 * torch.dot(x, x)
y.backward()
print(x.grad)x.grad.zero_() #梯度清零，如果不清零执行y=x*x然后对y求和再求导可以通过x.grad查看得[0.,1.,4.,*.]
y = x * x #x是向量，y即向量
y.sum().backward()
print(x.grad == 2 * x)

结果：
在这里插入图片描述

即使构建函数的计算图通过Python控制流仍可以计算变量的梯度

import torchdef f(a):b = a * 2while b.norm() < 1000:#norm()计算张量的范数, 计算了张量 b 的L2范数b = b * 2if b.sum(): #检查 b 所有元素的总和是否非零c = b #非0的时候的操作else:c = 100 * breturn ca = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
print(a.grad == d / a) #梯度验证

结果：在这里插入图片描述

问题

多个loss（损失函数）分别反向的时候是不是需要累积梯度？

是的

需要正向和反向都要算一遍吗？

是的

为什么Pytorch会默认累积梯度？

设计上的理念，通常一个大的批量无法一次计算出，所以分为多次，然后累加起来。

为什么获取.grad前需要backward？

不进行backward时不会计算梯度，因为计算梯度是一个很“贵”的事情