验证attention是否在图像分类问题上起决定性作用

news/2024/11/20 21:41:54/

来源:投稿 作者:摩卡
编辑:学姐

Motivation

现阶段出现了大量的Transformer-style图像分类模型,并且这些模型在ImageNet上取得了不俗的成绩,这些Transformer-style模型将取得高性能的功劳归功于Multi-head attention注意力机制,但是是否由于attention而取得好效果目前还不明确。故本文为了验证该想法Is the attention necessary? 进行了研究。

Method

为了验证attention是否在图像分类问题上起决定性作用,本文使用Feed-Forward Network (single-layer MLP)替换Multi-head attention,模型图如下所示:

然后选取了当下流行的ViT(2020年提出的纯Transformer的图像分类网络)和DeepViT(2021年提出,在几乎不扩充ViT占用内存的情况下提升ViT性能的图像分类模型)作为baseline,将ViT/DeepViT中的Transformer模块替换为上图所示的类Transformer的Feed-Forward模块,在保证任何参数都与baseline相同的情况下进行实验。

Result

实验结果如下图所示:

由上表可知,在Base的参数设置下FFN-only模型在使用0.72%ViT/DeepViT参数的情况下,效果达到了74.9%。而在Large的参数设置下FFN-only模型在使用0.67ViT/DeepViT参数的情况下效果与ViT不相上下。

作者还验证了Attention-only模型的效果(即将Transformer模块中的FFN替换为Multi-head attention),使用ViT-BASE的设置,在ImageNet上的效果仅仅为28.2%。

Conclusion

上述结果表明,虽然FFN-only模型没有刷新ImageNet的指标,但是相比较于Attention-only模型已经是质的飞跃,由此引发研究者的思考:到底是哪一部分使得Transformer-style模型的性能提升?

作者认为是patch-embedding和train procedure。因为patch-embedding对图像特征进行了很强的归纳,而train procedure中的trick会变相的进行数据增强。

个人体会

该论文出自Oxford University,与重新让研究者关注MLP的论文有异曲同工之妙,Feed-Forward Network(FFN)作用在patch上,可以将其看作一个特殊的convolution,只不过该卷积只作用于单通道。

而FFN作用在image features上时实际上就是一个1*1 convolution。由此引发我的思考,可以将该思想迁移到其他任务之上,研究在该任务中Multi-head attention的作用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取顶会必读论文合集

码字不易,欢迎大家点赞评论收藏!


http://www.ppmy.cn/news/404401.html

相关文章

【实战】 项目起航:项目初始化与配置 —— React17+React Hook+TS4 最佳实践,仿 Jira 企业级项目(一)

文章目录 一、项目起航:项目初始化与配置1.项目初始化 —— create-react-app2.格式化 —— Prettier3.提交规范 —— commitlint4.Mock —— json-server 学习内容来源:React React Hook TS 最佳实践-慕课网 相对原教程,我在学习开始时&am…

MySQL----索引

文章目录 一、索引的概念二、索引的作用索引的副作用创建索引的依据 三、索引的分类和创建3.1普通索引创建直接索引修改表方式创建创建表的时指定索引(不推荐使用) 3.2唯一索引直接创建唯一索引修改表方式创建创建表时指定 3.3主键索引创建表的时指定修改…

【数据库三】MySQL事务

MySQL事务 1.事务的概念2.事务的ACID特点3.知识点总结 1.事务的概念 事务是一种机制、一个操作序列,包含了一组数据库操作命令,并且把所有的命令作为一个整体,一起向系统提交或撤销操作请求,即这一组数据库命令要么都执行&#x…

【C++进阶】带你手撕AVL树

文章目录 一、什么是AVL树二、AVL树的定义三、AVL树的插入1.理论讲解2.代码实现 四、AVL树的旋转1.左单旋2.右单旋3.左右双旋4.右左双旋 五、 AVL树的验证六、完整源码 一、什么是AVL树 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为…

Pinia:Vue.js状态管理的下一代

引言 在现代Web应用程序开发中,状态管理是一个不可或缺的部分。Vue.js是一种流行的前端框架,它提供了Vuex作为其默认的状态管理解决方案。然而,随着Vue社区的不断壮大和进步,我们迫切需要一个更简单、更直观的状态管理库。这就是…

C#开发的OpenRA游戏之建造物品的窗口3

C#开发的OpenRA游戏之建造物品的窗口3 前面已经分析TAB窗口来分类管理不同物品的创建,主要分为5大类,但是这5大类是怎么样实现显示的呢,下面就来分析这个问题。 先来看一下类ProductionTabsWidget的构造函数: public ProductionTabsWidget(World world) { this.worl…

观察者模式(二十)

相信自己,请一定要相信自己 上一章简单介绍了迭代器模式(十九), 如果没有看过, 请观看上一章 一. 观察者模式 引用 菜鸟教程里面 观察者模式介绍: https://www.runoob.com/design-pattern/observer-pattern.html 当对象间存在一对多关系时,则使用观察…

联想小新电脑摄像头打不开

如下图 排除了顶部物理键阻挡以及未开摄像头权限后,发现是在联想电脑管家开启了隐私模式,如下图。