关于Swin Transformer的架构记录

news/2024/11/28 22:47:19/

Swin Transformer 可以说是批着Transformer外表的卷积神经网络。

具体的架构如下图所示:

首先我们得到一张224*224*3的图片。

通过分成4*4的patch,变成了56*56*48。

线性变换后又变成了56*56*96。

然后利用了Swin Transformer中一个比较特别的结构 Patch Merging 变成28*28*192。

同理,变成14*14*384。

同理,变成7*7*768。

这是总体的过程,Swin Transformer内部是由W-MSA 和SW-MSA组成的。

另外一个比较重要的是针对移位配置的高效批量计算。

移动窗口分区的一个问题是,它将导致更多的窗口,一些窗口将小于M×M。

一个简单的解决方案是将较小的窗口填充到M×M的大小,并在计算注意力时屏蔽填充的值。这种朴素解增加的计算量是相当大的(2×2→ 3×3,是2.25倍)。

利用下图所示的方法:

在该偏移之后,分批窗口可以由在特征图中不相邻的几个子窗口组成,因此采用掩蔽机制来将自注意计算限制在每个子窗口内。

掩码如下:


http://www.ppmy.cn/news/1353664.html

相关文章

鸿蒙系统优缺点,能否作为开发者选择

凡是都有对立面,就直接说说鸿蒙的优缺点吧。 鸿蒙的缺点: 鸿蒙是从2019年开始做出来的,那时候是套壳Android大家都知晓。从而导致大家不看鸿蒙系统,套壳Android就是多次一举。现在鸿蒙星河版已经是纯血鸿蒙,但是它的…

CSS篇--transform

CSS篇–transform 使用transform属性实现元素的位移、旋转、缩放等效果 位移 // 语法 transform:translate(水平移动距离,垂直移动距离) translate() 如果只给一个值,表示x轴方法移动距离 单独设置某个方向的移动距离:translateX() transla…

数字IC实践项目(9)— Tang Nano 20K: I2C OLED Driver

Tang Nano 20K: I2C OLED Driver 写在前面的话硬件模块RTL电路和相关资源报告SSD1306 OLED 驱动芯片SSD1306 I2C协议接口OLED 驱动模块RTL综合实现 总结 写在前面的话 之前在逛淘宝的时候偶然发现了Tang Nano 20K,十分感慨国产FPGA替代方案的进步之快;被…

智能车折线电磁组学习资料

LQ_STC32G12K128核心板资料 链接:https://pan.baidu.com/s/1DWlhqX98dJczm35FNBYOBQ?pwd=pmc0 提取码:pmc0 LQ_STC32G12K128母板资料 链接:https://pan.baidu.com/s/1msFPIxXQaLJ5R1Mt0WANVA 提取码:7n9cLQ_STC32G12K128母板原理图资料 链接:https://pan.baid…

JVM-JVM中对象的生命周期

申明:文章内容是本人学习极客时间课程所写,文字和图片基本来源于课程资料,在某些地方会插入一点自己的理解,未用于商业用途,侵删。 原资料地址:课程资料 对象的创建 常量池检查:检查new指令是否能在常量池…

电路设计(15)——篮球赛24秒违例倒计时报警器的proteus仿真

1.设计要求 设计、制作一个篮球赛24秒违例倒计时报警器。要求: (1)具有倒计时功能。可完整实现从“24”秒开始依序倒计时并显示倒计时过程,显示时间间隔为1秒。 (2)具有消隐功能。当“24”秒倒计时…

用HTML5和JavaScript实现黑客帝国风格的字符雨效果

目录 一、程序代码 二、代码原理 三、运行效果 一、程序代码 <!doctype html> <html> <head><meta charset"utf-8" /><title>黑客帝国字符雨</title> <!-- 设置网页标题 --><meta name"keywords" conte…

盐构造发育的动力学机制

盐构造可以由以下6 种机制触发引起(图 2)[18] &#xff1a;①浮力作用&#xff1b;②差异负载作用&#xff1b;③重力扩张作 用&#xff1b;④热对流作用&#xff1b;⑤挤压作用&#xff1b;⑥伸展作用。盐体 的塑性流动和非常规变形是盐构造的主要特点,岩 盐有时在几百m 深处就…