AAAI_2025_0">CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection(AAAI 2025)
最近关于通用物体检测的研究旨在将语言引入最先进的闭集检测器,然后通过构建大规模(文本区域)数据集进行训练,以推广开放集概念。然而,这些方法面临两个主要挑战:(i)如何有效地利用提示中的先验信息以泛化物体,以及(ii)如何在下游任务中减少对齐偏差,这两者在预训练以外的一些场景中导致次优性能。为了解决这些挑战,我们提出了一种强大的通用检测基础模型,称为CP-DETR,该模型在几乎所有场景中都具有竞争力,只需一个预训练权重。具体来说,我们设计了一种高效的提示视觉混合编码器,通过逐层和多尺度融合模块增强提示与视觉之间的信息互动。然后,混合编码器通过提示多标签损失和辅助检测头充分利用提示信息。除了文本提示外,我们还设计了两种实用的概念提示生成方法,即视觉提示和优化提示,通过具体的视觉示例提取抽象概念,并在下游任务中稳定地减少对齐偏差。凭借这些有效的设计,CP-DETR在广泛的场景中表现出卓越的通用检测性能。例如,我们的Swin-T主干模型在LVIS上达到了47.6的零样本AP,而Swin-L主干模型在ODinW35上达到了32.2的零样本AP。此外,我们的视觉提示生成方法通过交互检测在COCO验证集上达到了68.4的AP,而优化提示在ODinW13上达到了73.1的全样本AP。
AAAI_2025_2">SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection(AAAI 2025)
对于自动驾驶汽车来说,3D 目标检测是一项基础的感知任务。使用 4D 毫米波雷达完成这样的任务极具吸引力,因为该传感器能够获取类似于激光雷达的 3D 点云,同时在恶劣天气下仍能保持稳定的测量。然而,由于雷达点云的高稀疏性和噪声,现有方法的性能仍然远低于预期。在本文中,我们针对基于 4D 雷达的 3D 目标检测提出了一种新颖的半监督跨模态知识蒸馏 (SCKD) 方法。它通过半监督蒸馏表征了从 Lidar 雷达融合教师网络学习特征的能力。我们首先在教师网络中提出了一个自适应融合模块来提升其性能。然后,设计了两个特征蒸馏模块来促进跨模态知识转移。最后,提出了一种半监督输出蒸馏来提高蒸馏框架的有效性和灵活性。在相同网络结构下,我们由 SCKD 训练的仅限雷达学生将基准测试的 mAP 提升了 10.38%,并且优于 VoD 数据集上的最新成果。当有额外的未标记数据可用时,ZJUODset 上的实验还显示在中等难度级别上,与基准测试相比,mAP 提高了 5.12%。代码可在GitHub - Ruoyu-Xu/SCKD: AAAI 2025获得。
AAAI_2025_4">HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection(AAAI 2025)
毫米波雷达由于其全天候和全光照条件下的感知能力,在自动驾驶的3D目标检测中起着至关重要的作用。然而,雷达点云具有明显的稀疏性和不可避免的角度估计误差。为了解决这些限制,结合使用摄像头可以部分帮助缓解这些缺点。然而,由于图像中缺乏深度信息和在恶劣光照条件下的低质量图像特征,雷达和摄像头数据的直接融合会导致负面甚至相反的效果。因此,在本文中,我们提出了具有混合生成和同步 (HGSFusion) 的雷达相机融合网络,旨在更好地融合雷达电位和图像特征以进行 3D 物体检测。具体来说,我们提出了雷达混合生成模块 (RHGM),该模块在雷达信号处理中充分考虑了到达方向 (DOA) 估计误差。该模块通过不同的概率密度函数 (PDF) 生成更密集的雷达点,并借助语义信息。同时,我们引入了双重同步模块 (DSM),包括空间同步和模态同步,以使用雷达位置信息增强图像特征并促进不同模态中不同特征的融合。大量实验表明了我们方法的有效性,在 RoI AP 和 BEV AP 中分别以 6.53% 和 2.03% 的优势优于 VoD 和 TJ4DRadSet 数据集中的最先进方法。代码可在https://github.com/garfield-cpp/HGSFusion获得。
AAAI_2025_7">RCTrans: Radar-Camera Transformer via Radar Densifier and Sequential Decoder for 3D Object Detection(AAAI 2025)
在雷达相机 3D 目标检测中,雷达点云通常稀疏且噪声大,这给相机和雷达模态的融合带来了困难。为了解决这个问题,我们引入了一种名为雷达相机 Transformer(RCTrans)的新型基于查询的检测方法。具体来说,我们首先设计了一个雷达稠密编码器来丰富稀疏的有效雷达标记,然后将它们与图像标记连接起来。通过这样做,我们可以充分探索每个感兴趣区域的 3D 信息,并在融合阶段减少空标记的干扰。然后,我们设计了一个剪枝顺序解码器,以基于获得的标记和随机初始化的查询预测 3D 框。为了减轻雷达点云中仰角模糊的影响,我们通过顺序融合结构逐步定位物体的位置。它有助于在标记和查询之间获得更精确和灵活的对应关系。解码器中采用了剪枝训练策略,这可以在推理过程中节省大量时间,并抑制查询丢失其独特性。在大型 nuScenes 数据集上的大量实验证明了我们方法的优越性,并且我们还取得了新的最先进的雷达相机 3D 检测结果。我们的实现可在GitHub - liyih/RCTrans: [AAAI 2025] RCTrans: Radar-Camera Transformer via Radar Densiffer and Sequential Decoder for 3D Object Detection获得。
AAAI_2025_9">Universal Domain Adaptive Object Detection via Dual Probabilistic Alignment(AAAI 2025)
领域自适应对象检测(DAOD)在封闭集假设下将来自标记源域的知识转移到未标注文目标域。通用DAOD(UniDAOD)扩展了DAOD以处理开放集、部分集和封闭集域自适应。在本文中,我们首先揭示了两个问题:域私有类别对齐对于全局级特征至关重要,并且不同级别特征的域概率异质性。为了解决这些问题,我们提出了一种新颖的双概率对齐(DPA)框架,将域概率建模为高斯分布,从而实现异质域分布采样和度量。DPA包括三个定制模块:全局级别域私有对齐(GDPA)、实例级别域共享对齐(IDSA)和私有类约束(PCC)。GDPA利用全局级别采样来挖掘域私有类别样本,并通过累积分布函数计算对齐权重以解决全局级别私有类别对齐问题。IDSA 利用实例级别采样来挖掘域共享类别样本,并通过高斯分布计算对齐权重以执行域共享类别域对齐以解决特征异质性。PCC汇总了特征和概率空间之间的域私有类别质心以减轻负迁移。大量实验表明,我们的DPA在各种数据集和场景(包括开放集、部分集和封闭集)中都优于最先进的UniDAOD和DAOD方法。代码可在以下网址获得:https://github.com/zyfone/DPA。
AAAI_2025_12">Differential Alignment for Domain Adaptive Object Detection(AAAI 2025)
领域自适应目标检测 (DAOD) 旨在将针对标记源域数据训练的目标检测器泛化到没有注释的目标域,其核心原则是源目标特征对齐。一般来说,现有方法使用对抗性学习对齐源域和目标域的分布,在特征对齐过程中几乎不考虑不同区域(例如,在不同情况下和前景 vs 背景区域中的实例)的不同重要性。为了克服这一缺陷,我们研究了一种差分特征对齐策略。具体来说,我们设计了一个预测差异反馈实例对齐模块(简称 PDFA)自适应地将较大权重分配给具有较高教师学生检测差异的实例,有效处理较重的特定域信息。此外,我们还提出了一种基于不确定性的面向前景的图像对齐模块 (UFOA),以明确指导模型更多地关注感兴趣区域。我们对广泛使用的 DAOD 数据集进行了大量实验以及消融研究,以证明我们提出的方法的有效性,并揭示其优于其他 SOTA 替代方案。我们的代码可在https://github.com/EstrellaXyu/Differential-Alignment-for-DAOD获得。
AAAI_2025_14">CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics(AAAI 2025)
基于事件的相机具有高时间分辨率、宽动态范围和低功耗,非常适合高速和低光照对象检测。由于其尖峰特性,尖峰神经网络 (SNN) 有望用于基于事件的对象识别和检测,但这缺乏高效的训练方法,导致梯度消失和计算开销高,尤其是在深度 SNN 中。此外,现有的 SNN 框架通常无法有效处理多尺度时空特征,从而导致数据冗余增加和精度降低。为了解决这些问题,我们提出了 CREST,这是一个新颖的联合训练的尖峰驱动框架,用于利用基于事件的对象检测中的时空动态。我们引入了联合学习规则来加速 SNN 学习并缓解梯度消失问题。它还支持双重操作模式,以便在不同类型的硬件上高效且灵活地实施。此外,CREST 采用了完全尖峰驱动的框架,其中包括多尺度时空事件积分器 (MESTOR) 和时空-IoU (ST-IoU) 损失。与最先进的 SNN 算法相比,我们的方法在三个数据集上实现了卓越的对象识别和检测性能,并且能效提高了 100 倍,为基于 SNN 硬件实现的基于事件的对象检测算法提供了一种高效的解决方案。
小小的总结:
从上面的内容可以看出,通用目标检测和事件相机仍然是一个热点,尤其是事件相机,论文数量在不断增加,但是远未到泛滥的地步;在自动驾驶中,Radar获得了越来越多的关注,这大概是因为基于Lidar的算法已经到达了很高的指标,难以提升;域适应仍然是一个难点,但是通用目标检测是否会冲击域适应?
总体来说,希望能够尽快放出全部AAAI的论文,从而根据自己领域的录用情况,判断当下的热点和未来的研究方向。
NIPS|CVPR 2024论文合集PDF版
这些资料收录了NIPS和CVPR 2024所有论文的标题和摘要,是中英文对照的,读起来方便多了。
如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻这些最新的研究,说不定就能找到一些新的想法或思路。
平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的!
NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v
CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt