论文阅读之旋转目标检测ARC:《Adaptive Rotated Convolution for Rotated Object Detection》

news/2024/10/5 9:31:55/

论文link:link
code:code
ARC是一个改进的backbone,相比于ResNet,最后的几层有一些改变。

Introduction

  ARC自适应地旋转以调整每个输入的条件参数,其中旋转角度由路由函数以数据相关的方式预测。此外,还采用了一种有效的条件计算技术,使检测器具有更大的适应性来处理图像中具有各种方向的物体。所提出的 ARC 模块可以方便地用作任意核大小的卷积层中的即插即用模块。因此,任何具有卷积层的骨干网络都可以通过使用 ARC 模块享受强大的旋转物体表示能力。

1.摘要

  旋转物体检测旨在识别和定位图像中任意方向的物体。在这种情况下,物体的方向在不同图像中差异很大,而一幅图像中存在多个物体方向。这种固有特性使得标准主干网络很难提取这些任意方向物体的高质量特征。在本文中,我们提出了自适应旋转卷积 (ARC)模块来应对上述挑战。在我们的ARC模块中,卷积核自适应地旋转以提取不同图像中方向不同的物体特征,并引入了一种高效的条件计算机制来适应图像中物体的大方向变化。这两种设计在旋转物体检测问题中无缝协作。此外,ARC可以方便地用作各种视觉主干中的即插即用模块,以增强其表征能力,从而准确检测方向物体。在常用基准(DOTA和 HRSC2016)上进行的实验表明,在主干网络中配备我们提出的 ARC 模块后,多个流行的定向物体检测器的性能得到了显著提升(例如,在 Rotated RetinaNet 上 =mAP 提高了3.03%,在CFA上 mAP 提高了 4.16%)。与极具竞争力的 Oriented R-CNN 方法相结合,所提出的方法在 DOTA数据集上实现了81.77% mAP 的最佳性能。

2.模型结构图

在这里插入图片描述

3.方法

3.1 旋转卷积核

  为了弥合任意方向的物体实例和这些静态方向的卷积核之间的差距,我们建议通过以数据驱动的方式在核空间内采样权重来旋转卷积核。

3.2 路由函数

  路由函数将图像特征x作为输入,并为内核集预测一组旋转角度 [ θ 1 , . . . θ n ] [{\theta _1},...{\theta _n}] [θ1,...θn],以及相应的权重 [ λ 1 , . . . . . λ n ] [{\lambda _1},.....{\lambda _n}] [λ1,.....λn] ,输入函数特征x的大小为 [ C i n , H , W ] [{C_{in}},H,W] [Cin,H,W] ,首先输入到内核大小为 3×3 的轻量级深度卷积中,然后进行层归一化和 ReLU 激活。然后将激活的特征平均池化为具有 C i n C_{in} Cin 维度的特征向量。池化特征向量传递到两个不同的分支。第一个分支是旋转角度预测分支,由线性层和软符号激活组成。将这个线性层的偏差设置为 false,以避免学习有偏差的角度。采用软符号激活来降低饱和速度。此外,软符号层的输出乘以一个系数以扩大旋转范围。第二个分支称为组合权重预测分支,负责预测组合权重 λ。它由带偏差的线性层和 S 型激活构成。路由函数由零均值截断正态分布初始化,标准差为 0.2,以便模块在学习过程开始时产生较小的值。

3.3 自适应旋转卷积模块

  卷积核根据不同的输入特征图自适应地旋转,本文引入一种条件计算机制来处理多个方向的对象:ARC模块有n个内核 ( W 1 , W 2 . . . . . , W n ) (W_1,W_2.....,W_n) (W1,W2.....,Wn) ,每个内核的形状都为: [ C o u t , C i n , k , k ] [{C_{out}},{C_{in}},k,k] [Cout,Cin,k,k]

4.结果

在这里插入图片描述
在这里插入图片描述

5.结论

  本文提出了一种用于旋转物体检测的自适应旋转卷积模块。在所提出的方法中,卷积核根据图像中不同的物体方向自适应地旋转。进一步引入了一种高效的条件计算方法,使网络能够更灵活地捕获图像中多个方向物体的方向信息。所提出的模块可以插入任何具有卷积层的骨干网络。实验结果证明,在骨干网络中配备所提出的模块后,各种方向物体检测器在常用的旋转物体检测基准上的性能显著提高,同时保持了效率。


http://www.ppmy.cn/news/1473632.html

相关文章

【pearcmd】通过pearcmd.php 进行GetShell

https://cloud.tencent.com/developer/article/2204400 关于PHP 配置 register_argc_argv 小结 的一些研究文章。 应用例题 [NewStarCTF 2023 公开赛道]Include &#x1f350; <?phperror_reporting(0);if(isset($_GET[file])) {$file $_GET[file];if(preg_match(/flag|l…

经典双运算放大器LM358

前言 LM358双运放有几十年的历史了吧&#xff1f;通用运放&#xff0c;很常用&#xff0c;搞电路的避免不了接触运放&#xff0c;怎么选择运放&#xff0c;是工程师关心的问题吧&#xff1f; 从本文开始&#xff0c;将陆续发一些常用的运放&#xff0c;大家选型可以参考&#…

Excel中按列的首行字母顺序,重新排列(VBA脚本)

排序前 要求对4列数据按照第一行abcd的顺序排列 VB脚本如下&#xff1a; 要使用这个脚本&#xff0c;请按照以下步骤操作&#xff1a; 打开Excel&#xff0c;然后按下 Alt F11 打开VBA编辑器。在VBA编辑器中&#xff0c;选择“插入” > “模块”&#xff0c;在打开的模块…

golang结合neo4j实现权限功能设计

neo4j 是非关系型数据库之图形数据库&#xff0c;这里不再赘述。 传统关系数据库基于rbac实现权限, user ---- role ------permission,加上中间表共5张表。 如果再添上部门的概念&#xff1a;用户属于部门&#xff0c;部门拥有 角色&#xff0c;则又多了一层&#xff1a; user-…

【最新整理】全国高校本科及专科招生和毕业数据集(2008-2022年)

整理了各省高校本科、专科招生和毕业数据等21个相关指标&#xff0c;包括招生、在校、毕业人数&#xff0c;以及财政教育支出、教育经费等数据。含原始数据、线性插值、回归填补三个版本&#xff0c;希望对大家有所帮助 一、数据介绍 数据名称&#xff1a;高校本科、专科招生…

从入门到深入,Docker新手学习教程

编译整理&#xff5c;TesterHome社区 作者&#xff5c;Ishaan Gupta 以下为作者观点&#xff1a; Docker 彻底改变了我们开发、交付和运行应用程序的方式。它使开发人员能够将应用程序打包到容器中 - 标准化的可执行组件&#xff0c;将应用程序源代码与在任何环境中运行该代码…

Windows 11 安装 安卓子系统 (WSA)

How to Install Windows Subsystem for Android (WSA) on Windows 11 新手教程&#xff1a;如何安装Windows 11 安卓子系统 说明 Windows Subsystem for Android 或 WSA 是由 Hyper-V 提供支持的虚拟机&#xff0c;可在 Windows 11 操作系统上运行 Android 应用程序。虽然它需…

绝区贰--及时优化降低 LLM 成本和延迟

前言 大型语言模型 (LLM) 为各行各业带来了变革性功能&#xff0c;让用户能够利用尖端的自然语言处理技术处理各种应用。然而&#xff0c;这些强大的 AI 系统的便利性是有代价的 — 确实如此。随着 LLM 变得越来越普及&#xff0c;其计算成本和延迟可能会迅速增加&#xff0c;…