开放世界目标检测 Grounding DINO

devtools/2024/12/28 18:44:00/

开放世界目标检测 Grounding DINO

flyfish

Grounding DINO 是一种开创性的开放集对象检测器,它通过结合基于Transformer的检测器DINO与基于文本描述的预训练技术,实现了可以根据人类输入(如类别名称或指代表达)检测任意对象的功能。这项研究的关键在于将语言引入到原本只能识别预定义类别的封闭集检测器中,以实现对开放集概念的泛化能力。

为了有效融合语言和视觉模态,研究者们在理论上将一个封闭集检测器的工作流程分为三个阶段,并提出了一个紧密融合的解决方案。该方案包括:

  1. 特征增强器:用于强化从图像中提取的特征。
  2. 语言引导的查询选择:根据提供的文本描述来选择哪些区域或对象进行更细致的分析。
  3. 跨模态解码器:用于融合视觉和语言信息,使模型能够理解两者之间的关系。

Grounding DINO 首先在大规模数据集上进行了预训练,这些数据集涵盖了对象检测、接地任务以及图像字幕生成的数据。预训练之后,模型在开放集对象检测和指代对象检测基准测试中进行了评估。结果显示,Grounding DINO 在所有三项设置中都表现出了显著的效果,包括COCO、LVIS、ODinW 和 RefCOCO/+/g 等基准测试。

具体来说,Grounding DINO 在 COCO 零样本检测基准上的平均精度(AP)达到了52.5%,并且在 ODinW 的零样本检测基准上创造了新的记录,平均精度为26.1%。这表明 Grounding DINO 不仅可以很好地处理已知类别的检测任务,还能有效地应对未曾见过的新类别,展现了强大的泛化能力。

此外,研究人员还发布了部分检查点和推理代码,供社区使用和进一步研究,发布地址为 https://github.com/IDEA-Research/GroundingDINO。

这个模型的成功标志着在开放集对象检测领域的一个重要进展,为未来的研究和应用提供了新的可能性。

Introduction

Artificial General Intelligence (AGI) 系统的能力的一个关键指标是其处理开放世界场景的熟练程度。在本文中,我们的目标是开发一个强大的系统,该系统能够根据人类语言输入检测任意对象,这一任务通常被称为开放集对象检测(open-set object detection)。此任务作为通用对象检测器具有广泛的应用前景和巨大潜力,例如可以与生成模型合作进行图像编辑(如图1(b)所示)。

为了实现这个目标,我们设计了强大的开放集对象检测器 Grounding DINO,并遵循以下两个原则:

  1. 基于DINO的紧密模态融合

    • 开放集检测的关键在于通过引入语言来实现对未见过的对象的泛化能力。大多数现有的开放集检测器都是通过将封闭集检测器扩展到开放集场景并结合语言信息发展而来的。
    • 如图2所示,一个封闭集检测器通常包含三个重要模块:用于特征提取的骨干网络(backbone)、用于特征增强的颈部(neck),以及用于区域细化(或边界框预测)的头部(head)。
    • 通过学习语言感知的区域嵌入,封闭集检测器可以被推广以检测新对象,使得每个区域可以在语言感知的语义空间中分类为新的类别。实现这一目标的关键是在颈部和/或头部输出之间使用区域输出和语言特征之间的对比损失(contrastive loss)。
  2. 大规模接地预训练以实现概念泛化

    • 为了让模型能够理解并识别各种不同类型的对象,它需要经历大规模的数据预训练,包括对象检测数据、接地数据和字幕数据等。这种预训练有助于模型学习如何将视觉信息与文本描述关联起来,从而提高对新概念的理解和泛化能力。

Grounding DINO 的设计不仅依赖于深度学习中的Transformer架构(如DINO),还依赖于跨模态(视觉和语言)信息的有效融合。通过这种方式,模型能够在不局限于预定义对象类别的前提下,根据自然语言描述准确地定位和识别图像中的对象,这标志着向更加智能和灵活的计算机视觉系统迈出了重要一步。

此外,文中提到的“对比损失”是一种训练技术,它帮助模型学会区分正样本(即正确的匹配)和负样本(错误的匹配),这对于确保模型正确地关联语言描述和视觉内容至关重要。这种方法使 Grounding DINO 能够有效地从已知类别泛化到未知类别,从而在开放集对象检测任务中表现优异。
执行代码先执行

export HF_ENDPOINT=https://hf-mirror.com
from groundingdino.util.inference import load_model, load_image, predict, annotate
import cv2model = load_model("groundingdino/config/GroundingDINO_SwinT_OGC.py", "weights/groundingdino_swint_ogc.pth")
IMAGE_PATH = "weights/dog-3.jpeg"
TEXT_PROMPT = "chair . person . dog ."
BOX_TRESHOLD = 0.35
TEXT_TRESHOLD = 0.25image_source, image = load_image(IMAGE_PATH)boxes, logits, phrases = predict(model=model,image=image,caption=TEXT_PROMPT,box_threshold=BOX_TRESHOLD,text_threshold=TEXT_TRESHOLD
)annotated_frame = annotate(image_source=image_source, boxes=boxes, logits=logits, phrases=phrases)
cv2.imwrite("annotated_image.jpg", annotated_frame)

问题

GroundingDINO/ms_deform_attn.py", line 53, in forwardoutput = _C.ms_deform_attn_forward(^^
NameError: name '_C' is not defined

解决方法

export CUDA_HOME=/usr/local/cuda-12.4
echo $CUDA_HOME

请添加图片描述


http://www.ppmy.cn/devtools/146176.html

相关文章

极狐GitLab 17.7正式发布,可从 GitLab 丝滑迁移至极狐GitLab【二】

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…

【JavaEE】Spring Web MVC

目录 一、Spring Web MVC简介 1.1 MVC简介1.2 Spring MVC1.3 RequestMapping注解1.3.1 使用1.3.2 RequestMapping的请求设置 1.3.2.1 方法11.3.2.2 方法2 二、Postman介绍 2.1 创建请求2.2 界面如下:2.3 传参介绍 一、Spring Web MVC简介 官方文档介绍&#xff…

【MySQL】深度学习数据库开发技术:使用CC++语言访问数据库

**前言:**本节内容介绍使用C/C访问数据库, 包括对数据库的增删查改操作。 主要是学习一些接口的调用, 废话不多说, 开始我们的学习吧! ps:本节内容比较容易, 友友们放心观看哦! 目录 准备mysql…

Python数据可视化小项目

英雄联盟S14世界赛选手数据可视化 由于本学期有一门数据可视化课程,课程结课作业要求完成一个数据可视化的小Demo,于是便有了这个小项目,课程老师要求比较简单,只要求熟练运用可视化工具展示数据,并不要求数据来源&am…

地理数据库Telepg面试内容整理-在Telepg数据库中,如何进行空间数据的存储与管理

在 Telepg 数据库中进行空间数据的存储与管理涉及几个关键的步骤和技术。Telepg 作为一个地理数据库,通常会采用一系列专门的空间数据类型、索引机制和空间查询功能来高效地存储、管理和查询空间数据。以下是如何在 Telepg 数据库中存储和管理空间数据的具体方法: 空间数据类…

HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据文件资产迁移

文件资产迁移,对于图片、文档等文件类数据,需要先将其转换为资产commonType.Asset类型,再封装到分布式数据对象中进行迁移。迁移实现方式与普通的分布式数据对象类似,下面仅针对差异部分进行说明。 在源端,将需要迁移…

C++ 环境搭建 - 安装编译器、IDE选择

引言 C 是一种功能强大且广泛应用的编程语言,适用于系统编程、游戏开发、嵌入式系统等多个领域。为了开始学习和使用 C,首先需要搭建一个合适的开发环境。本文将详细介绍如何安装 C 编译器以及选择适合的集成开发环境(IDE)&#…

linux-23 文件管理(一)创建文件touch,stat

那接下来看看文件的创建和删除,那我们怎么去创建一个文件?各种方式都能实现,当然,这里先说一说,就像mkdir创建空目录一样,我们如何创建一个空文件?创建空文件其实很简单,有一个命令歪…