[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

[MOCO v3] An Empirical Study of Training Self-Supervised Vision Transformers

news/2025/1/16 1:02:16/

1、目的

探索基于contrastive/Siamese范式（而非masked auto-encoding范式）和ViT结构（而非卷积网络）的自监督学习

2、方法

MoCo v3

1）random data augmentation

2）query encoder $f_{q}$ ，key encoder $f_{k}$

3）学习目标是retrieve corresponding "key"。损失函数用InfoNCE：

4）不用memory queue，因为batch足够大

5）encoder = backbone + projection head + prediction head。 $f_{k}$ 是 $f_{q}$ 的moving average，但去除了prediction head

3、训练稳定性

训练的稳定性不会导致网络不收敛，而会导致准确性下降

1）batch size过大时导致训练不稳定

2）learning rate = $lr \times BatchSize / 256$ 。学习率越小，训练越稳定，但可能under-fitting；学习率越大，训练越不稳定

3）optimizer

LAMB（AdamW-counterpart of LARS）对lr的要求比较高，最终还是选用AdamW

4）提升稳定性的trick

gradient spike先出现在first layer，然后在几个iteration之后出现在last layer，说明训练不稳定性起源于shallower layers

固定random patch projection层可以提升稳定性，而BatchNorm、WeightNorm、（阈值不够小的）gradient clip作用不大

将3通道16x16的patch编码为768-d的输出，信息损失可以忽略不计，因此即便用随机参数初始化也可以

4、其他

去除position embedding只轻微影响准确性，说明位置信息还没有被充分探索

http://www.ppmy.cn/news/1521845.html

相关文章

【原创】java+springboot+mysql企业产品销售管理系统设计与实现

【原创】java+springboot+mysql企业产品销售管理系统设计与实现

个人主页：程序猿小小杨个人简介：从事开发多年，Java、Php、Python、前端开发均有涉猎博客内容：Java项目实战、项目演示、技术分享文末有作者名片，希望和大家一起共同进步，你只管努力，剩下的交…

阅读更多...

使用Python本地搭建http.server文件共享服务并实现公网环境远程访问——“cpolar内网穿透”

使用Python本地搭建http.server文件共享服务并实现公网环境远程访问——“cpolar内网穿透”

前言本文主要介绍如何在Windows系统电脑上使用python这样的简单程序语言，在自己的电脑上搭建一个共享文件服务器，并通过cpolar创建的公网地址，打造一个可以随时随地远程访问的私人云盘。数据共享作为和连接作为互联网的基础应用&#xff…

阅读更多...

Linux下Docker基础命令（使用腾讯云镜像源）

Linux下Docker基础命令（使用腾讯云镜像源）

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux 或 Windows 操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口&…

阅读更多...

UI 自动化技能：20个实战技巧！测试工程师必看！

UI 自动化技能：20个实战技巧！测试工程师必看！

大家周五好啊！忙碌了一周，又可以懒洋洋躺在沙发上了~~~ 又到了每年的金九银十了，今天聊聊如何提升UI自动化话题... 你是否在求职过程中感受到UI自动化的技能不足？ 随着测试行业的发展，UI自动化测试已成为每位测试工程…

阅读更多...

PostgreSQL技术内幕7：PostgreSQL查询编译

PostgreSQL技术内幕7：PostgreSQL查询编译

文章目录 0.简介1.整体过程2.查询分析2.1 Lex2.2 Yacc2.3 PG词法分析和语法分析介绍2.4 PG语义分析 4.查询优化4.1 预处理4.1.1 提升子链接和子查询4.1.2 预处理表达式4.1.3 处理HAVING子句 4.2 改进查询树4.2.1 路径生成4.2.2 代价估计 4.3 计划生成 0.简介一次完整的SQL执行…

阅读更多...

薄膜制造革新-平扫式自动风环测厚仪

薄膜制造革新-平扫式自动风环测厚仪

在现代工业的舞台上，薄膜制造如同一位灵动的舞者，不断追求着更高的品质与更卓越的性能。而在这场持续的革新之舞中，平扫式自动风环测厚仪正以其独特的魅力，成为引领薄膜制造迈向新高度的璀璨之星。曾经，薄膜厚度的测…

阅读更多...

2024数学建模国赛选题建议+团队助攻资料

2024数学建模国赛选题建议+团队助攻资料

目录一、题目特点和选题建议二、模型选择 1、评价模型 2、预测模型 3、分类模型 4、优化模型 5、统计分析模型三、white学长团队助攻资料 1、助攻代码 2、成品论文PDF版 3、成品论文word版 9月5日晚18：00就要公布题目了，根据历年竞赛题目…

阅读更多...

【网络安全】XSS+OTP绕过+账户接管

【网络安全】XSS+OTP绕过+账户接管

未经许可，不得转载。文章目录正文XSSOTP绕过账户接管正文目标：www.example.com XSS 不断寻找可能存在XSS的点位。终于，在个人资料页面：www.example.com/profile_details.php?userid= ，使用Payload<script>alert(1)</script>，实现XSS：因此，能够实…

阅读更多...

最新文章