[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

news/2025/1/16 1:02:16/

1、目的

        探索基于contrastive/Siamese范式(而非masked auto-encoding范式)和ViT结构(而非卷积网络)的自监督学习

2、方法

        MoCo v3

                ​​​​​​​        

        1)random data augmentation

        2)query encoder f_{q},key encoder f_{k}

        3)学习目标是retrieve corresponding "key"。损失函数用InfoNCE:

                ​​​​​​​        ​​​​​​​        

        4)不用memory queue,因为batch足够大

        5)encoder = backbone + projection head + prediction head。f_{k}f_{q}的moving average,但去除了prediction head

3、训练稳定性

        训练的稳定性不会导致网络不收敛,而会导致准确性下降

        1)batch size过大时导致训练不稳定

        2)learning rate = lr \times BatchSize / 256。学习率越小,训练越稳定,但可能under-fitting;学习率越大,训练越不稳定

        3)optimizer

                LAMB(AdamW-counterpart of LARS)对lr的要求比较高,最终还是选用AdamW

        4)提升稳定性的trick

                gradient spike先出现在first layer,然后在几个iteration之后出现在last layer,说明训练不稳定性起源于shallower layers

                固定random patch projection层可以提升稳定性,而BatchNorm、WeightNorm、(阈值不够小的)gradient clip作用不大         

                将3通道16x16的patch编码为768-d的输出,信息损失可以忽略不计,因此即便用随机参数初始化也可以    

4、其他

        去除position embedding只轻微影响准确性,说明位置信息还没有被充分探索


http://www.ppmy.cn/news/1521845.html

相关文章

【原创】java+springboot+mysql企业产品销售管理系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

使用Python本地搭建http.server文件共享服务并实现公网环境远程访问——“cpolar内网穿透”

前言 本文主要介绍如何在Windows系统电脑上使用python这样的简单程序语言,在自己的电脑上搭建一个共享文件服务器,并通过cpolar创建的公网地址,打造一个可以随时随地远程访问的私人云盘。 数据共享作为和连接作为互联网的基础应用&#xff…

Linux下Docker基础命令(使用腾讯云镜像源)

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux 或 Windows 操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口&…

UI 自动化技能:20个实战技巧!测试工程师必看!

大家周五 好啊!忙碌了一周,又可以懒洋洋躺在沙发上了~~~ 又到了每年的金九银十了,今天聊聊如何提升UI自动化话题... 你是否在求职过程中感受到UI自动化的技能不足? 随着测试行业的发展,UI自动化测试已成为每位测试工程…

PostgreSQL技术内幕7:PostgreSQL查询编译

文章目录 0.简介1.整体过程2.查询分析2.1 Lex2.2 Yacc2.3 PG词法分析和语法分析介绍2.4 PG语义分析 4.查询优化4.1 预处理4.1.1 提升子链接和子查询4.1.2 预处理表达式4.1.3 处理HAVING子句 4.2 改进查询树4.2.1 路径生成4.2.2 代价估计 4.3 计划生成 0.简介 一次完整的SQL执行…

薄膜制造革新-平扫式自动风环测厚仪

在现代工业的舞台上,薄膜制造如同一位灵动的舞者,不断追求着更高的品质与更卓越的性能。而在这场持续的革新之舞中,平扫式自动风环测厚仪正以其独特的魅力,成为引领薄膜制造迈向新高度的璀璨之星。 曾经,薄膜厚度的测…

2024数学建模国赛选题建议+团队助攻资料

目录 一、题目特点和选题建议 二、模型选择 1、评价模型 2、预测模型 3、分类模型 4、优化模型 5、统计分析模型 三、white学长团队助攻资料 1、助攻代码 2、成品论文PDF版 3、成品论文word版 9月5日晚18:00就要公布题目了,根据历年竞赛题目…

【网络安全】XSS+OTP绕过+账户接管

未经许可,不得转载。 文章目录 正文XSSOTP绕过账户接管正文 目标:www.example.com XSS 不断寻找可能存在XSS的点位。 终于,在个人资料页面:www.example.com/profile_details.php?userid= ,使用Payload<script>alert(1)</script>,实现XSS: 因此,能够实…