pytorch小记(一):pytorch矩阵乘法:torch.matmul(x, y)

ops/2025/1/16 10:47:34/

pytorch小记(一):pytorch矩阵乘法:torch.matmul(x, y)/ x @ y

      • 代码
      • 代码 1:`torch.matmul(x, y)`
        • 输入张量:
        • 计算逻辑:
        • 输出结果:
      • 代码 2:`y = y.view(4,1)` 再 `torch.matmul(x, y)`
        • 输入张量:
        • 计算逻辑:
        • 输出结果:
      • 总结:两种情况的区别


代码

x = torch.tensor([[1,2,3,4], [5,6,7,8]])
y = torch.tensor([2, 3, 1, 0]) # y.shape == (4)
print(torch.matmul(x, y))
print(x @ y)
>>>
tensor([11, 35])
tensor([11, 35])
x = torch.tensor([[1,2,3,4], [5,6,7,8]])
y = torch.tensor([2, 3, 1, 0]) # y.shape == (4)
y = y.view(4,1)                # y.shape == (4, 1)
'''
tensor([[2],[3],[1],[0]])
'''
print(torch.matmul(x, y))
print(x @ y)
>>>
tensor([[11],[35]])
tensor([[11],[35]])

在这段代码中,torch.matmul(x, y) 或者x @ y计算的是矩阵乘法或张量乘法。我们分两种情况详细分析:


代码 1:torch.matmul(x, y)

输入张量:
  • x 是一个 2D 张量,形状为 (2, 4)
    tensor([[1, 2, 3, 4],[5, 6, 7, 8]])
    
  • y 是一个 1D 张量,形状为 (4,)
    tensor([2, 3, 1, 0])
    
计算逻辑:

在 PyTorch 中,如果 matmul 的一个输入是 2D 张量,另一个是 1D 张量,计算规则是:

  • 将 1D 张量 y 当作列向量 (4, 1),与矩阵 x 进行矩阵乘法。
  • 结果是一个 1D 张量,形状为 (2,)

矩阵乘法公式:
result [ i ] = ∑ j x [ i , j ] ⋅ y [ j ] \text{result}[i] = \sum_j x[i, j] \cdot y[j] result[i]=jx[i,j]y[j]

具体计算步骤:

  1. 对第一行 [1, 2, 3, 4]
    ( 1 ⋅ 2 ) + ( 2 ⋅ 3 ) + ( 3 ⋅ 1 ) + ( 4 ⋅ 0 ) = 2 + 6 + 3 + 0 = 11 (1 \cdot 2) + (2 \cdot 3) + (3 \cdot 1) + (4 \cdot 0) = 2 + 6 + 3 + 0 = 11 (12)+(23)+(31)+(40)=2+6+3+0=11
  2. 对第二行 [5, 6, 7, 8]
    ( 5 ⋅ 2 ) + ( 6 ⋅ 3 ) + ( 7 ⋅ 1 ) + ( 8 ⋅ 0 ) = 10 + 18 + 7 + 0 = 35 (5 \cdot 2) + (6 \cdot 3) + (7 \cdot 1) + (8 \cdot 0) = 10 + 18 + 7 + 0 = 35 (52)+(63)+(71)+(80)=10+18+7+0=35
输出结果:
torch.matmul(x, y)
# tensor([11, 35])

代码 2:y = y.view(4,1)torch.matmul(x, y)

输入张量:
  • x 是同一个 2D 张量,形状为 (2, 4)
  • y 被重塑为 2D 张量,形状为 (4, 1)
    tensor([[2],[3],[1],[0]])
    
计算逻辑:

在这种情况下,matmul 执行的是 矩阵乘法,两个输入的形状为 (2, 4)(4, 1)

  • 矩阵乘法的规则是:前一个矩阵的列数必须等于后一个矩阵的行数
  • 结果张量的形状是 (2, 1)

矩阵乘法公式:
result [ i , k ] = ∑ j x [ i , j ] ⋅ y [ j , k ] \text{result}[i, k] = \sum_j x[i, j] \cdot y[j, k] result[i,k]=jx[i,j]y[j,k]

具体计算步骤:

  1. 对第一行 [1, 2, 3, 4] 和列向量 [[2], [3], [1], [0]]
    ( 1 ⋅ 2 ) + ( 2 ⋅ 3 ) + ( 3 ⋅ 1 ) + ( 4 ⋅ 0 ) = 2 + 6 + 3 + 0 = 11 (1 \cdot 2) + (2 \cdot 3) + (3 \cdot 1) + (4 \cdot 0) = 2 + 6 + 3 + 0 = 11 (12)+(23)+(31)+(40)=2+6+3+0=11
  2. 对第二行 [5, 6, 7, 8] 和列向量 [[2], [3], [1], [0]]
    ( 5 ⋅ 2 ) + ( 6 ⋅ 3 ) + ( 7 ⋅ 1 ) + ( 8 ⋅ 0 ) = 10 + 18 + 7 + 0 = 35 (5 \cdot 2) + (6 \cdot 3) + (7 \cdot 1) + (8 \cdot 0) = 10 + 18 + 7 + 0 = 35 (52)+(63)+(71)+(80)=10+18+7+0=35
输出结果:
torch.matmul(x, y)
# tensor([[11],
#         [35]])

总结:两种情况的区别

  1. y 是 1D 张量

    • torch.matmul(x, y) 返回一个 1D 张量,形状为 (2,)
    • 相当于将 y 当作列向量,与矩阵 x矩阵乘法。
  2. y 是 2D 张量

    • torch.matmul(x, y) 返回一个 2D 张量,形状为 (2, 1)
    • 矩阵乘法严格遵守二维矩阵的维度规则。

两者的结果数值相同,但形状不同,主要是因为输入张量的维度不同,导致输出的维度也发生了变化。


http://www.ppmy.cn/ops/150531.html

相关文章

苹果手机ios脚本用按键精灵文件配置代码

以下是一个大致的思路来使用按键精灵在 iOS 手机上实现文件配置导出功能(需要注意的是,在 iOS 上使用按键精灵等类似工具要确保符合苹果应用的相关使用规范和权限要求哦),但实际操作中可能会受限于 iOS 系统的封闭性以及应用本身的…

Golang概述

文章目录 1. 什么是程序2. Go语言的诞生小故事2.1 Go 语言的核心开发团队--三个大牛2.2 Google 创造 Golang 的原因2.3 Golang 的发展历程 3. Golang 的语言的特点 1. 什么是程序 程序:就是完成某个功能的指令的集合。画一个图理解: 2. Go语言的诞生小故…

《大型语言模型与强化学习的融合:探索问题的新解决方案与开源验证需求》

强化学习在2020年代初期通过开源项目如CleanRL的多学习者PPO算法取得了显著进展,但在语言模型领域未能充分利用其潜力 1. 开源项目CleanRL的贡献 CleanRL 是一个致力于提供简单、高效且易于理解的强化学习(RL)算法实现的开源项目。该项目通…

Spark RPC 学习总结

前言 本文从API层面学习总结Spark RPC,暂不涉及源码分析。 Spark 通信历史 最开始: Akka Spark 1.3: 开始引入Netty,为了解决大块数据(如Shuffle)的传输问题 Spark 1.6:支持配置使用 Akka 或者 Netty。 Spark 2&…

Go语言编译的exe文件占用内存过大解决办法

Go 语言编译好的exe文件, 没有界面,执行后直接打开cmd运行,发现内存占用100M左右,为了保证程序代码正常吗,随便的一个最简单的代码如下,占用内存还是很大: package mainimport ("fmt" )func mai…

MCU中实时时钟(RTC)和普通定时器有什么区别

所谓实时时钟,只是一种称谓而已,也算是一种普通的时钟吧,不过加有晶振等电路,比较稳定,功能较多如日历,普通的时钟有一些是用元器件做振荡电路或用50HZ市电做频率源,不够稳定。 何为实时时钟RTC…

深入浅出 Android AES 加密解密:从理论到实战

深入浅出 Android AES 加密解密:从理论到实战 在现代移动应用中,数据安全是不可忽视的一环。无论是用户隐私保护,还是敏感信息的存储与传输,加密技术都扮演着重要角色。本文将以 AES(Advanced Encryption Standard&am…