【论文阅读】ViT阅读笔记

news/2024/9/17 19:06:55/

标题

一张图片可以等价于16*16的单词

transformer可以做大规模的图像识别

摘要

虽然现在transformer在nlp上得到广泛运用,但在cv上还没有运用

一般都是cnn+attention

现在用transformer用cv的效果特别好

引言

nlp的主流方式:先做预训练,再做微调

bert里支持512的序列长度

首先要把一个2d的图片,变成一个序列的集合

在视觉阶段,卷积神经网络还是占主导地位的

有些工作会把cnn和attention一起用

有些工作只用attention

有些工作用特征图作为transformer输入的方式

本工作使用一个标准的transformer直接应用于图片

vision transformer把一个图片分成很多patch,一个patch是16*16

14*14 patch = 196

对于视觉,使用有监督的方式去训练

核心:用这么简洁的框架,transformer也能在cv上得到很好的效果

viT在大规模的数据集上预训练后,可以获得更好的效果

这样就可以把cv问题和nlp问题大一统

结论

我们没有使用归纳偏置,而是直接把他看作一个序列化模型输入

效果很好且相对便宜

挖了一个新坑:如何用vision transformer来做cv

目标检测,图像分割

把cv和nlp大一统,然后也推动了多模态的工作

相关工作

自从transformer以后,感觉已经变成了nlp任务上最好的方法

BERT和GPT

自注意力的工作

在像素层面用transformer是不现实的

可以用sparse transformer,轴注意力

这些自注意力在任务上的表现上都是不错的

cnn+注意力的工作

imageGPT和我们的工作很相近

Method

把一张图打成patch

把patch转化成一个序列

patch embedding和position embedding

经过transformer以后,进mlp head

如何把一张图片,变成一系列的token

1414 得到196个patch,每个patch的维度是16 * 16 * 3 = 768

对图片进行预处理和对输出进行后处理是很关键的

消融实验用不同的位置编码:1d位置编码,2d位置编码,相对位置编码

vision transformer和cnn比要少很多归纳偏置

实验

在不同大小的数据集上做了预训练

能在大多数数据集上取得比较好的结果

数据集:ImageNet

三种模型:base, large, huge

vision transformer在中小型数据集上,效果不如resnet,因为没有用到一些先验知识和归纳偏置

在大的数据集上,用viT可以给到更好的结果,他的扩展能力更好一些

做了一些可视化,分析viT内部的表征

masked patch prediction

对比学习、自监督、无监督


http://www.ppmy.cn/news/44881.html

相关文章

Linux -- 进阶 Web 服务器 基础前瞻 ( 一 )

目录 WWW 简介 : 组件一个网站得需要哪些东西呢 ?? 1 得有 响应用户申请网页服务 的软件 2 服务器主机 3 那就需要数据了 4. 浏览器 预备知识 : 网址及HTTP 简介 : URL : http 请求方法 :…

SpringCloud微服务技术栈.黑马跟学(十二)

SpringCloud微服务技术栈.黑马跟学 十二 今日目标服务异步通信-高级篇1.消息可靠性1.1.生产者消息确认1.1.1.修改配置1.1.2.定义Return回调1.1.3.定义ConfirmCallback 1.2.消息持久化1.2.1.交换机持久化1.2.2.队列持久化1.2.3.消息持久化 1.3.消费者消息确认1.3.1.演示none模式…

Go 构建基础的事件调度器

👇我在这儿 当我们需要在一段时间后的特定时间或间隔运行任务时,我们需要使用任务调度系统来运行任务:例如发送电子邮件、推送通知、午夜关闭账户、清空表格等。 在本文中,我们将构建一个基本的事件调度程序,使用数据…

LiangGaRy的学习分享

LiangGaRy的学习分享 从小白开始,学习计算机技术;也算是一个比较大的跨越了,专业不对口;本来就没有基础;然后一直摸爬滚打来学习;有好多的心得与体会; 回顾当年上大学的时候,天天玩…

LC-1041 困于环中的机器人(模拟,快慢指针找环)

1041. 困于环中的机器人 难度中等148 在无限的平面上,机器人最初位于 (0, 0) 处,面朝北方。注意: 北方向 是y轴的正方向。南方向 是y轴的负方向。东方向 是x轴的正方向。西方向 是x轴的负方向。 机器人可以接受下列三条指令之一: "…

Codepipeline 跨账号访问 Codecommit

背景 大型企业中代码仓库通常存放在各部门开发账户中,而流水线则位于独立 DevOps 账户中。 本文我们将介绍如何创建跨账号访问 Codecommit 代码仓库的 Codepipeline 流水线,即 CodePipeline 调用另一个账号中的 Codecommit 代码仓库。 亚马逊云科技开发…

【嵌入式烧录/刷写文件】-5.1-详解map格式文件

目录 1 Map文件格式 1.1 TARGET SECTION字段 1.2 FILE SECTION字段 1.3 STARTUP SECTION字段 1.4 SECTION-ALLOCATION SECTION字段 1.5 VECTOR-ALLOCATION SECTION字段 1.6 OBJECT-ALLOCATION SECTION字段 1.7 MODULE STATISTIC字段 1.8 SECTION USE IN OBJECT-ALLOCA…

Nginx配置ssl证书实现https安全访问

目录 一、Nginx的安装与配置 安装步骤 二、SSL证书获取 三、Nginx配置 前题条件,拥有服务器与可以解析到该服务器的自己的域名。 一、Nginx的安装与配置 若已安装好了Nginx,则需查看自己的Nginx是否开启了SSL的模块功能: ./nginx -V 显…

C++类型转换运算符

类型转换运算符是一种特殊的函数,它可以将一个类类型的对象转换为另一种类型的值,或将一个对象引用或指针转换为另一种类型的对象引用或指针。这样一来,我们就可以在某些场合下方便地将一个对象转换为另一种形式。 在 C 中,类型转…

【好刊推荐】知名出版社影响因子7+被踢出SCI,投稿前如何选期刊?

今年3月Hindawi旗下的19本期刊被SCIE剔除,其中有一本影响因子7,以下从期刊各个指标方面分析一下具体原因: 期刊剔除:影响因子7 期刊简介 期刊名称: OXIDATIVE MEDICINE AND CELLULAR LONGEVITY ISSN / eISSN&#…

Grounding DINO-开集目标检测论文解读

文章目录摘要背景算法3.1Feature Extraction and Enhancer3.2. Language-Guided Query Selection3.3. Cross-Modality Decoder3.4. Sub-Sentence Level Text Feature3.5. Loss Function实验4.2 Zero-Shot Transfer of Grounding DINOCOCO数据集LVIS数据集ODinW,开放…

C技能树:Hello World

Hello World 输出 "Hello, World!" 字符串,请选出错误答案。 小知识:Hello World究竟从何而来? Hello, World最早是由 Brian Kernighan 创建的。1978年,Brian Kernighan写了一本名叫《C程序设计语言》的编程书,在程…

一、深入了解容器底层技术

一、容器技术概述 容器技术是一种操作系统级别的虚拟化技术,它可以在同一台物理机上运行多个容器,每个容器都有自己的文件系统、网络、进程和环境变量等,而且它们之间是隔离的,互相之间不会影响。容器技术的出现极大地简化了应用…

GO变量的使用

Go变量的使用注意事项 (1)第一种:指定了变量类型,但是声明后若不赋值,则使用默认值 (2)第二种:根据值自行判断我们的变量类型**(类型推导)** var num10.00 …

【MySQL学习】认识MySQL数据库

目录一、什么是数据库二、主流数据库三、MySQL数据库的基本使用3.1 MySQL的安装3.2 MySQL服务器管理3.3 连接MySQL服务器3.4 MySQL服务器,数据库与表之间的关系3.5 使用案例3.6 数据存储四、MySQL架构五、SQL分类六、存储引擎6.1 定义6.2 查看存储引擎6.3 存储引擎对…

TCP的连接管理机制(三次握手与四次挥手)

目录为啥要三次握手与四次挥手三次握手syn 与 ack三次握手具体流程四次挥手注意为啥要三次握手与四次挥手 相比于UDP, TCP是有连接的, 这个连接就体现在这了. 三次握手就是TCP建立连接, 四次挥手就是TCP断开连接. 三次握手 握手是指通信双方进行网络交互. 三次握手就相当于…

Linux工具——yum和vim

目录 🍏Linux软件包管理器-yum🍎yum简介🍎rzsz工具🍎注意事项🍎软件包查看🍎如何安装和卸载软件 🍏Linux编辑器-vim🍎vim的基本概念🍎vim的基本操作🍎vim正常…

少儿编程 电子学会图形化编程等级考试Scratch三级真题解析(选择题)2022年12月

2022年12月Scratch等级考试一级真题解析 选择题(共25题,每题2分,共50分) 1、默认小猫角色和气球角色都是显示状态,小猫程序如下图所示,气球没有程序,点击绿旗,舞台上最终显示的效果是 A、可能出现6个不同位置的小猫和6个小球 B、可能出现6个不同位置的小猫和1个气球…

Spring Boot AOP @Pointcut拦截注解的表达式与运算符

项目场景: 这里主要说下Spring Boot AOP中Pointcut拦截类上面的注解与方法上面的注解,怎么写表达式怎么,还有Pointcut中使用运算符。 PointCut 表达式 拦截注解的表达式有3种:annotation、within、target 1、annotation 匹配有…

NFS能使使用者访问网络上别处的文件就像在使用自己的计算机一样

先关闭selinux跟防火墙 安装NFS yum install nfs-utils -y 配置共享目录 mkdir /webdata 赋权 chmod 755 /webdata 修改配置文件 vim /etc/exports 换顺序启动 systemctl start rpc-bind systemct start nfs 测试 showmount -e 客户端挂载 创建共享目录 mkdir /we…