loss.sum.backward()为什么要sum()?

news/2024/12/23 4:40:42/

在动手学深度学习中，这样解释的：
当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。

然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

所以，目标是要把y编程一个标量，然后进行求导。
关于 dot(x,x) 后为标量， xx后为矩阵，xx.sum() 后为标量
在这里插入图片描述

# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 本例只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad

http://www.ppmy.cn/news/1057071.html

POI groupRow 折叠分组，折叠部分不显示问题

折叠组是什么？如图就是用POI 实现的，代码很简单：sheet.groupRow(开始行，结束行)即可但是万万没想到，最终实现出的结果，合并的组，有一部分并没有渲染出来，如下图： 因为我…

C语言暑假刷题冲刺篇——day4

目录一、选择题二、编程题 🎈个人主页：库库的里昂 🎐CSDN新晋作者 🎉欢迎 👍点赞✍评论⭐收藏✨收录专栏：C语言每日一练 ✨其他专栏：代码小游戏C语言初阶🤝希望作者的文章能对你…

1.上传数据集 27.19.74.143,2015/3/30 17:38,/static/image/common/faq.gif 110.52.250.126,2015/3/30 17:38,/data/cache/style_1_widthauto.css?y7a 27.19.74.143,2015/3/30 17:38,/static/image/common/hot_1.gif 27.19.74.143,2015/3/30 17:38,/static/image/common/hot_2…

Java8 Stream流 flatMap使用

参考链接 import cn.hutool.core.collection.ListUtil; import lombok.AllArgsConstructor; import lombok.Data;import java.util.ArrayList; import java.util.List; import java.util.stream.Collectors;public class FlatMapLearn {DataAllArgsConstructorpublic static c…