【AIGC】12、DINO | 针对 DETR-like 检测器的提升

news/2024/10/19 23:37:18/

在这里插入图片描述

文章目录

    • 一、背景
    • 二、方法
      • 2.1 Contrastive DeNoising Training
      • 2.3 Mixed Query Selection
      • 2.4 Look Forward Twice
    • 三、效果

论文:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

代码:https://github.com/IDEACVR/DINO

出处:香港大学 | 清华大学

时间:2022.07

在这里插入图片描述

一、背景

DINO:Detr with Improved deNoising anchOr boxes

DINO 是一个基于 DETR 结构的端到端目标检测器,通过对去噪训练使用对比学习的方式来提高了 DETR-like models 的性能和效果

DINO 的结构:

  • backbone
  • multi-layer Transformer encoder
  • multi-layer Transformer decoder
  • multiple prediction heads
  • 参考 DAB-DETR,作者在 decoder 中构建了 queries 作为 dynamic anchor box,并且通过 decoder layers 一步步对其进行 refine
  • 参考 DN-DETR,作者在 Transformer decoder layer 中的 ground truth label 和 box 添加了噪声,帮助模型在训练中实现更稳定的双边匹配
  • 作者还使用了 deformable attention 来提高计算效率

DINO 提出的三个新方式:

  • contrastive denoising training:

    为了提升 one-to-one matching 的效果,将一个 gt 对应的所有正负样本都加起来来实现,给一个 gt box 添加两个不同的噪声后,将噪声较小的 box 标记为 positive,另外一个标记为 negative

    能够帮助模型过滤掉同一目标的多个冗余输出

  • mixed query selection:

    改善 query 初始化

  • look forward twice:

    为了使用后面的层的 refine box information 来帮助前面层进行优化

二、方法

在这里插入图片描述

DINO: DETR with Improved DeNoising Anchor Boxes

DETR 是由两部分构成的:

  • positional part:作为 positional queries
  • content part:作为 content queries

DINO 的框架结构如图 2 所示:给定一个输入图像

  • 首先,使用 ResNet 或 Swin transformer 作为 backbone 来进行特征提取
  • 其次,将提取到的特征输入 Transformer encoder,并且加上 position embedding,进行 feature enhancement
  • 接着,使用 new mixed query selection 来初始化 anchor 作为 decoder 的 positional queries。对 content queries 不进行初始化,让其可以自己学习
  • 然后,使用 deformable attention [41] 来对 encoder 输出特征进行结合,并且逐层更新 queries
  • 最后,最终的输出是 refined anchor box 和 class result
  • 此外,类似于 DN-DETR,DINO 中也使用了 DN branch,来进行 denoising training,且在基础 DN 方法之外,还考虑的 hard negative samples

2.1 Contrastive DeNoising Training

DN-DETR 在稳定训练和加速收敛上表现很好,能够基于和 gt box 离得近的 anchor 来进行预测。

但是,DN-DETR 对附近没有 object 的 anchor 预测 “no object” 的能力较差

所以本文提出了 Contrastive DeNoising(CDN) 来剔除没用的 anchor

DN-DETR 中有一个超参 λ \lambda λ 来控制噪声尺度,生成的早上不会大于 λ \lambda λ,因为 DN-DETR 想要模型学习在适度的 noised queries 中重建 gt

DINO 中,提出了两个超参 λ 1 \lambda_1 λ1 λ 2 \lambda_2 λ2,且 λ 1 < λ 2 \lambda_1 < \lambda_2 λ1<λ2,如图 3 所示,生成两种 CDN queries:

  • positive queries:noise scale 小于 λ 1 \lambda_1 λ1,用于重建 gt box
  • negative queries:noise scale 大于 λ 1 \lambda_1 λ1 小于 λ 2 \lambda_2 λ2,用于预测 “no object”

如图 3 所示,每个 CDN group 有一系列 positive queries 和 negative queries,如果一个图像有 n 个 GT box,CDN group 会有 2n 哥 queries,因为每个 GT box 生成一个 positive 和一个 negative queries

2.3 Mixed Query Selection

如图 5c,DINO 只使用 position information 和 selected top-K features 来初始化 anchor box,保持 content queries

在这里插入图片描述

2.4 Look Forward Twice

在这里插入图片描述

三、效果

在这里插入图片描述


http://www.ppmy.cn/news/227974.html

相关文章

WCDMA femto 微基站射频校准

femto 简介 Femtocell(毫微微蜂窝式基站)又称桌面基站&#xff0c;是一种家庭基站技术&#xff0c;主要用来解决楼宇家庭室内覆盖的问题基于IP宽带技术&#xff0c;通过用户已有的ADSL、LAN、xPON等宽带电路连接&#xff0c;远端由专用HNB GW实现从IP网到移动核心网的连通&…

5G微基站与智慧灯杆的关系

灯杆是一个城市的静态基础设施&#xff0c;如同人体的毛细血管一样分布在城市的各个角落&#xff0c;具有方便取电的优势&#xff0c;为大众提供照明、通信、安防等功能。但是&#xff0c;由于发展眼光的局限性与社会形态变化多端的影响&#xff0c;现如今&#xff0c;杆体林立…

为什么智慧路灯杆适合挂载5G微基站

智慧路灯杆是物联网新型基础设施的代表之一&#xff0c;支持融合物联网、5G、AI等先进技术应用&#xff0c;形成多功能合一的综合感知与交互系统。其中5G通信技术作为打造智慧城市的最关键的环节&#xff0c;如何与智慧路灯相结合&#xff0c;结合后又能发挥什么样的优势作用&a…

O-RAN专题系列-31:5G基站如何升级到O-RAN基站 - O-RU - 管理面MPlane的升级

作者主页(文火冰糖的硅基工坊)&#xff1a;文火冰糖&#xff08;王文兵&#xff09;的博客_文火冰糖的硅基工坊_CSDN博客 本文网址&#xff1a;https://blog.csdn.net/HiWangWenBing/article/details/120323472 目录 第1章 协议栈 1.1 eCPRI协议栈 1.2 5G基站 eCPRI接口的协…

超密集组网(UDN)

文章目录 背景与简介 原理密集组网技术密集组网规划微小区 19-01-16关键技术&#xff08;1&#xff09;[多连接技术](https://www.zhihu.com/question/54919933)&#xff08;2&#xff09;无线回传技术 超密集组网规划部署&#xff08;实现方案&#xff09; 优缺点超密集组网的…

华为CEO任正非最新讲话:WiFi和LTE竞争以及加大微基站研究

华为CEO任正非最新讲话&#xff0c;包括网络的最新发展趋势、WiFi和LTE技术未来可能的竞争、加大对微基站投入研究、对Nokia和微软的合并以及GOOGLE收购MOTO等通信行业重要事件的看法以及华为核心竞争优势。 9月5日&#xff0c;华为CEO任正非在接受华为内部无线业务汇报时指出&…

无线通讯基站服务器,无线通信的软基站技术详解

短短的十余年内,移动通讯发展出2G/3G/4G三代制式及10余种标准体制。同时,多种制式的网络将长期共存。长期以来,各设备商都采用一种制式对应一种基站的设计模式,导致运营商投资巨大、运维困难。例如,仅中国移动基站建设一项投资规模即达数千亿元。 运营商需要基站同时支持2…

基站信号强度和位置变化详解(可获得其他系统信息)

效果如下&#xff1a; 手机监听类型&#xff1a;&#xff08;封装在PhoneStateListener类中&#xff09;&#xff0c;了解一下都有哪些监听&#xff1a; LISTEN_NONE&#xff1a;停止监听更新&#xff08;一般onPause方法中把所有的监听关闭掉&#xff09;&#xff1b; LI…