解读CVPR2024-论文分享|RepViT: Revisiting Mobile CNN From ViT Perspective

server/2024/12/18 2:20:51/

论文标题

RepViT: Revisiting Mobile CNN From ViT Perspective

论文链接:

https://arxiv.org/abs/2307.09283

论文作者

Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

内容简介

这篇论文探讨了在资源受限的移动设备上,轻量级视觉变换器(ViTs)与轻量级卷积神经网络(CNNs)的性能和延迟。作者发现,尽管轻量级ViTs在性能上优于轻量级CNNs,但在硬件和计算库支持方面存在实际挑战。因此,研究团队重新审视了轻量级CNN的设计,并强调了其在移动设备部署上的潜力。通过将轻量级ViTs的高效架构设计集成到标准轻量级CNN(MobileNetV3)中,研究者们提出了一个新的轻量级CNN系列——RepViT。实验结果表明,RepViT在各种视觉任务中超越了现有的轻量级ViTs,并在延迟方面表现出优势。

方法

1.架构设计:

研究者们从MobileNetV3-L开始,逐步将其“现代化”,通过整合轻量级ViTs的高效架构设计。这个过程包括将ViTs的MetaFormer结构和Reparameterization卷积整合到CNN中,形成了新的RepViT块。

2.延迟度量:

为了更准确地评估模型在移动设备上的性能,研究者们使用实际设备(iPhone 12)上的延迟作为基准度量,而不是依赖于FLOPs或模型大小等传统指标。

3.训练方案对齐:

为了公平比较,研究者们将MobileNetV3-L的训练方案与现有的轻量级ViTs对齐,包括使用AdamW优化器、余弦学习率调度器、Mixup、自动增强和随机擦除等技术。

4.块设计:

研究者们分离了token mixer和channel mixer,并减少了扩张比,同时增加了网络宽度,以提高性能和减少延迟。

 

5.宏观设计:

对网络的宏观架构进行了优化,包括简化的stem、更深的下采样层和简化的分类器,以及调整整体阶段比。

 

6.微观设计:

关注于轻量级CNN的微观架构,包括内核大小选择和squeeze-and-excitation(SE)层的放置。

7.网络架构:

开发了多个RepViT变体,包括RepViT-M0.9/M1.0/M1.1/M1.5/M2.3,这些变体在通道数和每个阶段的块数上有所不同。

 

结论

RepViT作为一种新的轻量级CNN,不仅在性能上超越了现有的轻量级ViTs和CNNs,而且在延迟方面表现出色,特别是在移动设备上。这项工作不仅为轻量级模型的研究提供了一个强有力的基线,而且激发了对边缘部署轻量级模型的进一步研究。

CVPR2024论文合集链接:

https://arxiv.org/abs/2307.09283

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!


http://www.ppmy.cn/server/151053.html

相关文章

Unity NTPComponent应用, 实现一个无后端高效获取网络时间的组件

无后端高效获取网络时间的组件 废话不多说,直接上源码m_NowSerivceTime 一个基于你发行游戏地区的时间偏移, 比如北京时区就是 8, 巴西就是-3,美国就是-5using Newtonsoft.Json; 如果这里报错, 就说明项目没有 NewtonsoftJson插件…

D94【python 接口自动化学习】- pytest进阶之fixture用法

day94 pytest的fixture详解 学习日期:20241210 学习目标:pytest基础用法 -- pytest的fixture详解 学习笔记: fixture的介绍 fixture是 pytest 用于将测试前后进行预备、清理工作的代码处理机制。 fixture相对于setup和teardown来说有以…

.Net WebAPI(一)

文章目录 项目地址一、WebAPI基础1. 项目初始化1.1 创建简单的API1.1.1 get请求1.1.2 post请求1.1.3 put请求1.1.4 Delete请求 1.2 webapi的流程 2.Controllers2.1 创建一个shirts的Controller 3. Routing3.1 使用和创建MapControllers3.2 使用Routing的模板语言 4. Mould Bind…

【深度学习项目】目标检测之YOLO系列-V5(三)

介绍 YOLOv5 是由 Ultralytics 公司开发的一个目标检测模型,它不是由原始 YOLO 系列的作者 Joseph Redmon 提出的。尽管如此,YOLOv5 在社区中非常受欢迎,并且由于其易于使用、快速迭代和良好的性能而被广泛采用。 主要特点 模型大小与速度的…

使用 mkcert 工具自签发 https 证书并进行本地受信

介绍 mkcert 是一个用于创建本地受信任的 SSL/TLS 证书的简单工具,特别适合开发者在本地环境中使用。它解决了为开发和测试目的创建自签名证书时遇到的信任问题。以下是关于 mkcert 的详细介绍: 特点 易用性:只需一条命令即可生成证书&…

【数据结构——查找】二分查找(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 测试说明 我的通关代码: 测试结果: 任务描述 本关任务:实现二分查找的算法。 相关知识 为了完成本关任务,你需要掌握:1.根据键盘输入的一组有序数据建立顺序表,2.顺序表的输…

海康威视监控web实时预览解决方案

海康威视摄像头都试rtsp流,web页面无法加载播放,所以就得转换成web页面可以播放的hls、rtmp等数据流来播放。 一:萤石云 使用萤石云平台,把rtsp转化成ezopen协议,然后使用组件UIKit 最佳实践 萤石开放平台API文档 …

自动驾驶系统研发系列—智能驾驶新高度:解析ESS驾驶员转向辅助系统

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。 🚀 探索专栏:学…