卷积的计算——nn.Conv2d(Torch.nn里的Convolution Layers模块里的Conv2d类)

embedded/2024/10/10 22:49:10/

 **前置知识:

1、张量和通道

张量:多维数组,用来表示数据(图像、视频等)

通道:图像数据的一部分,表示不同的颜色或特征层

通道只是张量的其中一个维度

以一张RGB图像为例,

该图像数据可以用一个三维张量(shape等于(C,H,W))来表示

其中C表示通道数(对于RGB图像,C=3),H表示高度,W表示宽度

再以一批64张图像组成的数据对象来看,

它可以用一个四维张量(shape等于(N,C,H,W))来表示

其中N表示批次大小(一批次图像的数量)

关于通道的补充:

2、Reshape:输入数据和卷积核张量的重塑

input = torch.reshape(input, (1, 1, 5, 5))

  • 1第一个 1 表示有 1 张图片(批量大小)
  • 1第二个 1 表示输入的通道数(这里是单通道,表示灰度图像)
  • 55:分别表示图像的高度和宽度

kernel = torch.reshape(kernel, (1, 1, 3, 3))

  • 1第一个 1 表示有 1 个卷积核(输出通道数)
  • 1第二个 1 表示卷积核的输入通道数(与input的输入通道数匹配)
  • 33:分别表示卷积核的高度和宽度

通过重塑,增加的信息主要是关于批量大小和通道数,

这使得输入和卷积核符合 conv2d 函数的要求

(输入张量必须是四维的,形状为 (N, C, H, W),

卷积核(权重)必须是四维的,形状为 (out_channels, in_channels, kernel_height, kernel_width):)

补充:

一张2*2RGB图像与一个3*3卷积核的卷积:

reshape后:

input的形状是(1,3,2,2),1表示1张图片

卷积核的形状是(1,3,3,3),1表示1个输出通道

3、output=F.conv2d(input,kernel,stride=1,padding=1)

input输入张量(4维)
kernel卷积核(4维)
stride卷积核移动的步幅(可以是一个整数或元组,默认为 1)
padding在输入的边缘添加零填充(帮助保持输出的空间尺寸)

**代码:

步骤:

import torch.nn.functional as F

定义input、kernel——>修改成四维形状reshape——>使用conv2d进行卷积

灰度图像的卷积:帮助识别图像中的特定特征,如边缘或纹理

import torch
import torch.nn.functional as Finput=torch.tensor([[1,2,0,3,1],[0,1,2,3,1],[1,2,1,0,0],[5,2,3,1,1],[2,1,0,1,1]
])#卷积核
kernel=torch.tensor([[1,2,1],[0,1,0],[2,1,0]
])print(input.shape)
print(kernel.shape)input=torch.reshape(input,(1,1,5,5))  #图片数,图层数(通道数),宽,高
kernel=torch.reshape(kernel,(1,1,3,3))print(input.shape)
print(kernel.shape)output1=F.conv2d(input,kernel,stride=1)
print(output1)output2=F.conv2d(input,kernel,stride=2)
print(output2)output3=F.conv2d(input,kernel,stride=1,padding=1)
print(output3)


http://www.ppmy.cn/embedded/125584.html

相关文章

ffmpeg面向对象——AVInputFormat与URLProtocol啥关系

《ffmpeg面向对象-rtsp拉流相关对象》和《ffmpeg面向对象——拉流协议匹配机制探索》探索过了输入格式匹配和底层协议匹配,且ffmpeg拉流是先是匹配输入格式——抽象为AVInputFormat类,然后再匹配url协议类——抽象为URLProtocol类。 它们是啥关系&#…

RK3588开发笔记-PCIE接口2.5G网卡RTL8125调试记录

目录 前言 一、RTL8125 功能特性详解: 1. 高带宽和高效能 2. 向下兼容性 3. 硬件卸载引擎 4. 节能特性 5. VLAN与QoS支持 6. 多操作系统支持 二、硬件原理图连接 三、内核配置 四、网卡调试 总结 前言 在RK3588平台上调试2.5G网卡(Realtek RTL8125)时,我们会用…

【AI系统】AI在不同领域的应用与行业影响

本文将探讨AI在不同技术领域和行业中的广泛应用,以及这些应用如何影响和改变我们的世界。 I. 引言 AI技术正日益渗透到各个技术领域,从计算机视觉到自然语言处理,再到音频处理,AI的应用正变得越来越广泛。这些技术的发展不仅推动…

Java为啥有的地方赋值是 数据类型 变量名 = 值; 有的是 一个单词 变量名 = new 又是那个单词();

在Java中,你提到的两种赋值方式实际上反映了Java中对象和非对象(基本数据类型)之间的区别。这是Java(以及许多其他面向对象编程语言)的一个核心特性。 第一种:数据类型 变量名 值; 这种方式用于基本数据…

第五十九周周报 IAGNN

文章目录 week 59 IAGNN摘要Abstract一、大数据相关1. 磁盘扩容以及数据恢复2. 单机hbase 二、文献阅读1. 题目2. Abstract3. 网络结构3.1 问题定义3.2 IAGNN 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程4.4 实验结果 5. 结论参考文献 week 59 IAGNN 摘要 本周阅读了…

MySQL 日志 - Binlog

文章目录 binlog 的格式mysqbinlog 工具SHOW binlog events;binlog 和 redo log 对比 https://dev.mysql.com/doc/refman/8.4/en/binary-log.html binlog 全称 BinaryLog,是 MySQL 数据库中用于记录所有更改数据库状态的事件的日志文件。它主要用于以下几个目的&am…

C++ 功能使用技巧

1. 通过C执行shell指令,比如,在代码中查找进程名称,并进行终止 2.单实例线程操作 1. 要点 snprintf 函数被用于构建一个包含多个命令的字符串 在C语言中,system函数用于执行shell命令 在C或C编程中,::mkdir 函数用…

0基础跟德姆(dom)一起学AI 机器学习03-线性回归

线性回归 线性回归介绍 【理解】举个栗子 假若有了身高和体重数据,来了播仔的身高,你能预测播仔体重吗? 这是一个回归问题,该如何求解呢? **思路**:先从已知身高X和体重Y中找规律,再预测 •数学问题:用一条线来拟…