改进YOLOv8 | 即插即用篇 | CVPR2023最新注意力 | 《BiFormer:视觉变换器与双层路由注意力》

news/2025/1/15 17:34:46/

在这里插入图片描述

作为视觉变换器的核心构建模块,注意力是一种强大的工具,可以捕捉长程依赖关系。然而,这种强大的功能付出了代价:计算负担和内存占用巨大,因为需要在所有空间位置上计算成对的令牌交互。一系列的研究尝试通过引入手工制作和与内容无关的稀疏性来缓解这个问题,例如将注意力操作限制在本地窗口、轴向条纹或扩张窗口内。与这些方法不同,我们提出了一种新颖的基于双层路由的动态稀疏注意力,以实现更灵活的计算分配和内容感知。具体而言,对于一个查询,无关的键-值对首先在粗略的区域级别进行过滤,然后在剩余候选区域的并集中应用细粒度的令牌-令牌注意力(即路由区域)。我们提供了所提出的双层路由注意力的简单而有效的实现,它利用稀疏性来节省计算和内存,并且只涉及GPU友好的密集矩阵乘法。基于所提出的双层路由注意力,我们还提出了一种新的通用视觉变换器,称为BiFormer。作为一种对查询自适应的方式,BiFormer只关注一小部分相关的令牌,而不会受到其他无关令牌的干扰,从而在性能和计算效率方面都表现出色,尤其在密集预测任务中。在多个计算机视觉任务(如图像分类、目标检测和语义分割)上的实证结果验证了我们设计的有效性。

论文地址:https://arxiv.org/pdf/2303.08810.pdf


原理图


http://www.ppmy.cn/news/62942.html

相关文章

rk3568 系统移植和编译

1。 硬件问题 尽量根据原版 evb 开发版 pcb 进行布线和移植,切记不可自行走线。 emmc 和 ddr4 选型都有要求的,按照硬件手册进行设计 2。软件问题 2.1 目前固件系统选用1.3.2 版本进行设计 解压后运行 .repo/repo/repo sync -c 更新代码 2.2 ubo…

用 Bitmap 实现亿级海量数据统计

在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合。 常见的场景如下: 给一个 userId ,判断用户登陆状态; 显示用户某个月的签到次数和首次签到时间; 两亿用户最近 7 天的签到…

PS VR创始成员:瑕不掩瑜,PS VR2是跨世代的飞跃

今年2月,索尼次世代VR头显PS VR2正式发售,这款立项近7年的产品受到了游戏玩家和从业者广泛关注,市面上也有很多种不同的测评报告。PS VR项目创始成员、前索尼沉浸式体验专家、高级VR游戏设计师Jed Ashforth也发表了自己对于该头显的一些看法&…

放弃40k月薪的程序员工作,选择公务员,我来分享一下看法

我有一个朋友,拒绝了我为他提供的4万薪水的工作,去了一个体制内的银行,做程序员,即使薪水减半。他之前在北京一家大公司做程序员,一个月30k。当我开始创业时,我拉他来和我一起干,但那时我们太小…

Accesss数据库的那点事

Accesss数据库的那点事 1.Access的简介 Access(全称为Microsoft Access)是一个关系型数据库管理系统(RDBMS)。它是由微软公司开发的数据库软件,用于创建、管理和操作数据库应用程序。 Access提供了一个可视化的开发环…

Spring MVC框架

Spring MVC框架 Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Spring 可插入的 MVC 架构,从而在使用Spring进行WEB开发时,可以选择使用Spring的Spri…

ProbTransformer:应对RNA折叠等自然过程数据模糊的神秘力量

编译 | 于洲‍ 今天我们介绍来自德国弗赖堡大学计算机科学系的Jrg K.H. Franke, Frederic Runge以及Frank Hutter发表在NeurIPS 2022会议上的工作,该文章介绍了一种新颖的基于概率的神经网络架构ProbTransformer,它是Transformer生态系统的一种层级增强&…

Elasticsearch查询文档--常见API篇(附详细代码和案例图文)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将介绍Elasticsearch在Java中的几种API的使用,这块内容不作为面试中的重点。 如果文章有什么需要改进的地方还请大佬不吝赐教👏&#x1f4…