卷积的计算——nn.Conv2d(Torch.nn里的Convolution Layers模块里的Conv2d类)

server/2024/10/18 17:31:55/

 **前置知识:

1、张量和通道

张量:多维数组,用来表示数据(图像、视频等)

通道:图像数据的一部分,表示不同的颜色或特征层

通道只是张量的其中一个维度

以一张RGB图像为例,

该图像数据可以用一个三维张量(shape等于(C,H,W))来表示

其中C表示通道数(对于RGB图像,C=3),H表示高度,W表示宽度

再以一批64张图像组成的数据对象来看,

它可以用一个四维张量(shape等于(N,C,H,W))来表示

其中N表示批次大小(一批次图像的数量)

关于通道的补充:

2、Reshape:输入数据和卷积核张量的重塑

input = torch.reshape(input, (1, 1, 5, 5))

  • 1第一个 1 表示有 1 张图片(批量大小)
  • 1第二个 1 表示输入的通道数(这里是单通道,表示灰度图像)
  • 55:分别表示图像的高度和宽度

kernel = torch.reshape(kernel, (1, 1, 3, 3))

  • 1第一个 1 表示有 1 个卷积核(输出通道数)
  • 1第二个 1 表示卷积核的输入通道数(与input的输入通道数匹配)
  • 33:分别表示卷积核的高度和宽度

通过重塑,增加的信息主要是关于批量大小和通道数,

这使得输入和卷积核符合 conv2d 函数的要求

(输入张量必须是四维的,形状为 (N, C, H, W),

卷积核(权重)必须是四维的,形状为 (out_channels, in_channels, kernel_height, kernel_width):)

补充:

一张2*2RGB图像与一个3*3卷积核的卷积:

reshape后:

input的形状是(1,3,2,2),1表示1张图片

卷积核的形状是(1,3,3,3),1表示1个输出通道

3、output=F.conv2d(input,kernel,stride=1,padding=1)

input输入张量(4维)
kernel卷积核(4维)
stride卷积核移动的步幅(可以是一个整数或元组,默认为 1)
padding在输入的边缘添加零填充(帮助保持输出的空间尺寸)

**代码:

步骤:

import torch.nn.functional as F

定义input、kernel——>修改成四维形状reshape——>使用conv2d进行卷积

灰度图像的卷积:帮助识别图像中的特定特征,如边缘或纹理

import torch
import torch.nn.functional as Finput=torch.tensor([[1,2,0,3,1],[0,1,2,3,1],[1,2,1,0,0],[5,2,3,1,1],[2,1,0,1,1]
])#卷积核
kernel=torch.tensor([[1,2,1],[0,1,0],[2,1,0]
])print(input.shape)
print(kernel.shape)input=torch.reshape(input,(1,1,5,5))  #图片数,图层数(通道数),宽,高
kernel=torch.reshape(kernel,(1,1,3,3))print(input.shape)
print(kernel.shape)output1=F.conv2d(input,kernel,stride=1)
print(output1)output2=F.conv2d(input,kernel,stride=2)
print(output2)output3=F.conv2d(input,kernel,stride=1,padding=1)
print(output3)


http://www.ppmy.cn/server/131396.html

相关文章

Python+whisper/vosk实现语音识别

目录 一、Whisper 1、Whisper介绍 2、安装Whisper 3、使用Whisper-base模型 4、使用Whisper-large-v3-turbo模型 二、vosk 1、Vosk介绍 2、vosk安装 3、使用vosk 三、总结 一、Whisper 1、Whisper介绍 Whisper 是一个由 OpenAI 开发的人工智能语音识别模型&#xf…

python pass的作用

class Phone: IMEI None # 序列号 producer “ITCAST” # 厂商 def call_by_4g(self):print("4g通话")class Phone2022(Phone): face_id “10001” # 面部识别ID def call_by_5g(self):print("2022年新功能:5g通话")class NFCReader: nfc_ty…

Android ViewModel

一问:ViewModel如何保证应用配置变化后能够自动继续存在,其原理是什么,ViewModel的生命周期和谁绑定的? ViewModel 的确能够在应用配置发生变化(例如屏幕旋转)后继续存在,这得益于 Android 系统的 ViewMod…

MySQL 之事务隔离级别

在 MySQL 中,事务隔离级别是用于控制事务之间的隔离程度和并发性能的重要设置。不同的事务隔离级别会对数据库的一致性、并发性和性能产生不同的影响。下面将详细阐述 MySQL 中的四种事务隔离级别:读未提交、读已提交、可重复读和串行化。 一、读未提交…

Video-LLaMA部署

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

axios 的 get 请求传参数

在使用 Axios 发起 GET 请求时,参数通常是通过 URL 的查询字符串来传递的。Axios 提供了一个简洁的接口来构建这样的请求,并自动将参数附加到 URL 上。 以下是一个使用 Axios 发起 GET 请求并传递参数的示例: const axios require(axios);…

机器学习篇-day04-逻辑回归-分类评估-混淆矩阵-精确率-召回率-F1值

主要适用于二分法, 也可以使用多个逻辑回归实现多分类 逻辑回归 线性回归结果 -> Sigmoid函数 > 概率 概率范围: [0, 1] > 设置阈值(假设: 大于0.5 > A) 一. 逻辑回归简介 应用场景 数学知识 sigmoid函数 概率 极大似然估计 核心思想 设模型中含有待估参数w&am…

图论day56|广度优先搜索理论基础 、bfs与dfs的对比(思维导图)、 99.岛屿数量(卡码网)、100.岛屿的最大面积(卡码网)

图论day56|广度优先搜索理论基础 、bfs与dfs的对比(思维导图)、 99.岛屿数量(卡码网)、100.岛屿的最大面积(卡码网)) 广度优先搜索理论基础bfs与dfs的对比(思维导图)&…