Transformer 杂记

news/2024/9/23 4:23:41/

Transformer输入的是token,来自语言序列的启发。

卷积神经网络(CNN)是如何进行物种分类的.它实际是直接对特征进行识别,也就是卷积神经网络最基本的作用:提取图像的特征。例如:卷积神经网络判断一只狗的时候,是从它的眼睛长啥样,鼻子长啥样,这些具体的特征去判断,而这些特征之间有什么联系它不会在意,比如眼睛长啥样并不会影响它对鼻子长啥样的判断。

注意力机制,是寻找一幅图中的每个token之间的相互联系。

图像分类:

VIT:VIT是Vision Transformer的缩写,是第一种将transformer运用到计算机视觉的网络架构。其将注意力机制也第一次运用到了图片识别上面。

Swin_Transformer:swintransformer的出现是为了解决传统的VIT对局部注意力关注度不够的问题,说人话就是,从VIT对整体的注意力的计算升级成了对图片分块后再进行小块的注意力计算。

Transformer经典论文:

1. Attention is All you Need

2. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

3. End-to-End Object Detection withTransformers

4. Long Range Arena: A Benchmark forEfficient Transformers

5. Pyramid Vision Transformer: A VersatileBackbone for Dense Prediction Without Convolutions

6. PVTv2: Improved Baselines with PyramidVision Transformer

7. Scaling Vision Transformers

8. Swin Transformer: Hierarchical VisionTransformer using Shifted Windows.

9. Swin Transformer V2: Scaling Up Capacityand Resolution

10. SegFormer: Simple and Efficient Designfor Semantic Segmentation with Transformers

11. Is Space-Time Attention All You Needfor Video Understanding?

12. VidTr: Video Transformer WithoutConvolutions

13. MixFormer: End-to-End Tracking withIterative Mixed Attention

14. EcoFormer: Energy-Saving Attention withLinear Complexity

15. Transformers in Vision: A Survey

16. Efficient Transformers: A Survey

17. MLP-Mixer: An all-MLP Architecture forVision

18. Dual Vision T ransformer

19. Vision Transformer Advanced byExploring Intrinsic Inductive Bias

Tranformer未来还能做什么?

Vision Transformer的故事还在继续,今年NeurIPS投稿也能看到大家陆续也在关注实测速度了,如TRT ViT,EfficientFormer, 但实际上ViT的工业落地相比CNN可能还是会有障碍。如量化上,ViT还是在低bit上还有很大提升空间。除此之外,我们组(https://ziplab.github.io/)也在探索Transformer的其他efficiency问题,比如

ViT的Training efficiency还有很大的空间。 ViT普遍难训练,需要的显存大,训练时间长。特别是backbone的公认setting是1024的batch size + 8 GPUs,使得很多小组连ViT跑都跑不起来(8卡 32GB V100不是所有人都有的),针对这一问题我们提出了一个针对Transformer的一个memory-efficient的训练框架: Mesa: A Memory-saving TrainingFramework for Transformers(https:arxiv.org/abs/2111.11124). 和普通训练相比,Mesa可以做到显存节省一半,同时与checkpointing和gradient accumulation等技术方案不冲突。

Transformer的能源消耗也是一个问题,特别是当下很多大组在跑以Transformer为backbone的大模型,训练时所造成的电力损耗,碳排放对Green AI这一长远目标不利。针对Energy efficiency,我们组在NeurIPS 2022最新的工作 EcoFormer: Energy-Saving Attention withLinear Complexity(https://arxiv.org/abs/2209.09004) 提出了一个Transformer二值化的全新方案,全新设计的EcoFormer是一个general的efficient attention, 性能和功耗上都优于一众线性复杂度的Linformer, Performer等,同时在45nm CMOS microcontroller上能耗更低,速度更快。

至于CNN和Transformer哪个好的问题,这个答案其实不必再过多讨论了,因为两者互补。通过合理地配置CNN和MSA在Backbone中的位置,可以让网络得到双倍的快乐。更不用说Convolution和MSA两者之间本身存在一种联系,比如我们组的另一篇工作:Pruning Self-attentions intoConvolutional Layers in Single Path(https://arxiv.org/abs/2111.11802), 巧妙地通过参数共享将计算复杂度较高的attention layer剪成更为efficient的convolutional layer,工程细节可以参考:https://github.com/ziplab/SPViT。


http://www.ppmy.cn/news/40329.html

相关文章

C++纯虚函数和抽象类详解

在C中,可以将虚函数声明为纯虚函数,语法格式为: virtual 返回值类型 函数名 (函数参数) 0; 纯虚函数没有函数体,只有函数声明,在虚函数声明的结尾加上0,表明此函数为纯虚函数。 最后的0并不表示函数返回…

浪潮:2022年净利同比增长51.39%

一、4月头条 华为的紧急回应,让东方材料21亿收购要黄? 4月10日消息,东方材料昨日晚间公告拟定增募资不超20亿元,用于向诺基亚全资子公司NSN收购TD TECH 51%股权(交易对价21.22亿元)。TD TECH剩余49%股权由…

Flink大数据量调优思路总结

目录 一、JVM内存参数调优 二、Flink内存调优 flink进程内存 jobmanager相关配置 三、netty优化

photoshop设置标尺、字体、画布默认单位为像素px

我们在使用photoshop的是时候有时候会遇见打开的画布或者打开的图片尺寸单位是厘米或者英寸,毫米,百分比,派卡,点等单位,我们可以通过修改首选项修改设置默认。 第一种方法: 1、选择工具栏——>编辑—…

从Navicat 和 DBeaver中导出数据不要文本识别符号 “”

今天需要从MySQL和ClickHouse数据库中导出CSV数据文件,打开CSV数据文件后发现字段的数据带着""这种不需要的符号,研究了一下终于成功导出了不要文本识别符号“”的CSV文件 一、演示从DBeaver导出ClickHouse数据库的表文件 第一步&#xff0c…

SimpleDataFormat.parse转换日期错误-多线程

最近使用线程池批量操作数据,中间用到了SimpleDataFormat转换时间,部分数据转换不正确,甚至2023年转成了7223年,原因是SimpleDataFormat不是线程安全的类,所以可以加锁进行处理 我是将sdf作为参数放入多线程&#xff0…

HC 小区管理系统考勤功能 操作文档

考勤功能操作说明 考勤功能是通过电脑端设置考勤班组和考勤人员,然后通过考勤机,这里推荐 厂拍科技(CAMERA PARK) M20-03考勤机打卡机人脸打卡考勤机钉钉刷脸识别门禁签到 M20-03人脸考勤机钉钉版(支持WiFi&#xff0…

【论文速览】图像分割领域的通用大模型SegGPT - Segmenting Everything in Context

文章目录研究背景解决思路PainterSegGPT实验效果(部分)思考参考资料代码地址:https://github.com/baaivision/Painter Demo地址:https://huggingface.co/spaces/BAAI/SegGPT 研究背景 图像分割一直是计算机视觉领域的一项基础研究…