w~自动驾驶~合集17

我自己的原文哦~ https://blog.51cto.com/whaosoft/13269720

#FastOcc

推理更快、部署友好Occ算法来啦！

在自动驾驶系统当中，感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素，如行驶在路上的车辆、路旁的行人、行驶过程中遇到的障碍物、路上的交通标志等，从而帮助下游模块做出正确合理的决策和行为。在一辆具备自动驾驶功能的车辆中，通常会配备不同类型的信息采集传感器，如环视相机传感器、激光雷达传感器以及毫米波雷达传感器等等，从而确保自动驾驶车辆能够准确感知和理解周围环境要素，使自动驾驶车辆在自主行驶的过程中能够做出正确的决断。

目前，基于纯图像的视觉感知方法相比于基于激光雷达的感知算法需要更低的硬件和部署成本而受到工业界和学术界的广泛关注，并且已经有许多优秀的视觉感知算法被设计出来用于实现3D目标感知任务以及BEV场景下的语义分割任务。虽然现有的3D目标感知算法已经取得了较为不错的检测性能，但依旧有相关问题逐渐在使用过程中暴露了出来：

原有的3D目标感知算法无法很好的解决数据集中存在的长尾问题，以及真实世界中存在但是当前训练数据集中可能没有标注的物体（如：行驶道路上的大石块，翻倒的车辆等等）
原有的3D目标感知算法通常会直接输出一个粗糙的3D立体边界框而无法准确描述任意形状的目标物体，对物体形状和几何结构的表达还不够细粒度。虽然这种输出结果框可以满足大多数的物体场景，但是像有连接的公交车或者具有很长挖钩的建筑车辆，当前3D感知算法就无法给出准确和清楚的描述了

基于上述提到的相关问题，栅格占用网络（Occupancy Network）感知算法被提出。本质上而言，Occupancy Network感知算法是基于3D空间场景的语义分割任务。基于纯视觉的Occupancy Network感知算法会将当前的3D空间划分成一个个的3D体素网格，通过自动驾驶车辆配备的环视相机传感器将采集到的环视图像送入到网络模型中，经过算法模型的处理和预测，输出当前空间中每个3D体素网格的占用状态以及可能包含的目标语义类别，从而实现对于当前3D空间场景的全面感知。

近年来，基于Occupancy Network的感知算法因其更好的感知优势而受到了研究者们的广泛关注，目前已经涌现出了很多优秀的工作用于提升该类算法的检测性能，这些论文的大概思路方向为：提出更加鲁棒的特征提取方法、2D特征向3D特征的坐标变换方式、更加复杂的网络结构设计以及如何更加准确的生成Occupancy真值标注帮助模型学习等等。然而许多现有的Occupancy Network感知方法在模型预测推理的过程中都存在着严重的计算开销，使得这些算法很难满足自动驾驶实时感知的要求，很难上车部署。

基于此，我们提出了一种新颖的Occupancy Network预测方法，和目前的SOTA感知算法相比，提出的FastOcc算法具有实时的推理速度以及具有竞争力的检测性能，提出的算法和其他算法的性能和推理速度如下图所示。

FastOcc算法和其他SOTA算法的精度和推理速度比较

论文链接：https://arxiv.org/pdf/2403.02710.pdf

网络模型的整体架构&细节梳理

为了提高Occupancy Network感知算法的推理速度，我们分别从输入图像的分辨率、特征提取主干网络、视角转换的方式以及栅格预测头结构四个部分进行了实验，通过实验结果发现，栅格预测头中的三维卷积或者反卷积具有很大的耗时优化空间。基于此，我们设计了FastOcc算法的网络结构，如下图所示。

FastOcc算法网络结构图

整体而言，提出的FastOcc算法包括三个子模块，分别是Image Feature Extraction用于多尺度特征提取、View Transformation用于视角转换、Occupancy Prediction Head用于实现感知输出，接下来我们会分别介绍这三个部分的细节。

图像特征提取（Image Feature Extraction）

视角转换（View Transformation）

一类是以BEVFormer为代表的Backward的坐标变换方法。该类方法通常是先在3D空间生成体素Query，然后利用Cross-view Attention的方式将3D空间的体素Query与2D图像特征进行交互，完成最终的3D体素特征的构建。
一类是以LSS为代表的Forward的坐标变换方法。这类方法会利用网络中的深度估计网络来同时估计每个特征像素位置的语义特征信息和离散深度概率，通过外积运算构建出语义视锥特征，最终利用VoxelPooling层实现最终的3D体素特征的构建。

考虑到LSS算法具有更好的推理速度和效率，在本文中，我们采用了LSS算法作为我们的视角转换模块。同时，考虑到每个像素位置的离散深度都是估计出来的，其不确定性一定程度上会制约模型最终的感知性能。因此，在我们的具体实现中，我们利用点云信息来进行深度方向上的监督，以实现更好的感知结果。

栅格预测头（Occupancy Prediction Head）

在上图展示的网络结构图中，栅格预测头还包含三个子部分，分别是BEV特征提取、图像特征插值采样、特征集成。接下来，我们将逐一介绍三部分的方法的细节。

BEV特征提取

目前，大多数的Occupancy Network算法都是对视角转换模块得到的3D体素特征进行处理。而处理的形式一般是三维的全卷积网络。具体而言，对于三维全卷积网络的任意一层，其对输入的三维体素特征进行卷积所需要的计算量如下：

通过3D和2D处理过程的计算量对比可以看出，通过利用轻量化的2D BEV特征卷积模块来代替原有的3D体素特征提取可以大大减少模型的计算量。同时，两类处理过程的可视化流程图如下图所示：

2D FCN和3D FCN网络结构的可视化情况

图像特征插值采样

为了减少栅格预测头模块的计算量，我们将视角转换模块输出的3D体素特征的高度进行压缩，并利用2D的BEV卷积模块进行特征提取。但为了增加缺失的Z轴高度特征信息并秉持着减少模型计算量的思想出发，我们提出了图像特征插值采样方法。

特征集成

上述提到的图像特征插值采样和特征集成过程整体可以用下图进行表示：

图像特征插值采样以及特征集成过程

除此之外，为了进一步确保经过BEV特征提取模块输出的BEV特征包含有足够的特征信息用于完成后续的感知过程，我们采用了一个额外的监督方法，即利用一个语义分割头来首先语义分割任务，并利用Occupancy的真值来构建语义分割的真值标签完成整个的监督过程。

实验结果&评价指标

定量分析部分

首先展示一下我们提出的FastOcc算法在Occ3D-nuScenes数据集上和其他SOTA算法的对比情况，各个算法的具体指标见下表所示

各个算法指标的在Occ3D-nuScenes数据集上的对比

通过表格上的结果可以看出，我们提出的FastOcc算法相比于其他的算法而言，在大多数的类别上都更加的具有优势，同时总的mIoU指标也实现了SOTA的效果。

除此之外，我们也比较了不同的视角转换方式以及栅格预测头当中所使用的解码特征的模块对于感知性能以及推理耗时的影响（实验数据均是基于输入图像分辨率为640×1600，主干网络采用的是ResNet-101网络），相关的实验结果对比如下表所示

不同视角转换以及栅格预测头的精度和推理耗时对比

SurroundOcc算法采用了多尺度的Cross-view Attention视角转换方式以及3D卷积来实现3D体素特征的提取，具有最高的推理耗时。我们将原有的Cross-view Attention视角转换方式换成LSS的转换方式之后，mIoU精度有所提升，同时耗时也得到了降低。在此基础上，通过将原有的3D卷积换成3D FCN结构，可以进一步的增加精度，但是推理耗时也明显增加。最后我们选择采样LSS的坐标转换方式以及2D FCN结构实现检测性能和推理耗时之间的平衡。

此外，我们也验证了我们提出的基于BEV特征的语义分割监督任务以及图像特征插值采样的有效性，具体的消融实验结果见下表所示：

不同模块的消融实验对比情况

此外，我们还做了模型上的scale实验，通过控制主干网络的大小以及输入图像的分辨率，从而构建了一组Occupancy Network感知算法模型（FastOcc、FastOcc-Small、FastOcc-Tiny），具体配置见下表：

不同主干网络和分辨率配置下的模型能力对比

定性分析部分

下图展示了我们提出的FastOcc算法模型与SurroundOcc算法模型的可视化结果对比情况，可以明显的看到，提出的FastOcc算法模型以更加合理的方式填补了周围的环境元素，并且实现了更加准确的行驶车辆以及树木的感知。

FastOcc算法与SurroundOcc算法的可视化结果对比情况

结论

在本文中，针对现有的Occupancy Network算法模型检测耗时长，难以上车部署的问题，我们提出了FastOcc算法模型。通过将原有的处理3D体素的3D卷积模块用2D卷积进行替代，极大缩短了推理耗时，并且和其他算法相比实现了SOTA的感知结果。

#DriveDreamer-2

世界车型在自动驾驶方面表现出了优势，尤其是在多视图驾驶视频的生成方面。然而，在生成自定义驾驶视频方面仍然存在重大挑战。在本文中，我们提出了DriveDreamer-2，它建立在DriveDreamer的框架上，并结合了一个大语言模型（LLM）来生成用户定义的驾驶视频。具体来说，LLM接口最初被合并以将用户的查询转换为代理轨迹。随后，根据轨迹生成符合交通规则的HDMap。最终，我们提出了统一多视图模型，以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是世界上第一款生成自定义驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频（例如，车辆突然驶入）。此外，实验结果表明，生成的视频增强了驾驶感知方法（如3D检测和跟踪）的训练。此外，DriveDreamer-2的视频生成质量超过了其他最先进的方法，FID和FVD得分分别为11.2和55.7，相对提高了～30%和～50%。

开源链接：https://drivedreamer2.github.io/

总结来说，本文的主要贡献如下：

我们推出DriveDreamer-2，这是世界上第一款以用户友好的方式生成虚拟驾驶视频的车型。
我们提出了一种仅使用文本提示作为输入的交通仿真管道，可用于生成用于驾驶视频生成的各种交通条件。
UniMVM旨在无缝集成视图内和视图间的空间一致性，提高生成的驾驶视频的整体时间和空间一致性。
大量实验表明，DriveDreamer-2可以制作各种定制的驾驶视频。此外，DriveDreamer-2与以前性能最好的方法相比，可将FID和FVD提高约30%和约50%。此外，DriveDreamer-2生成的驾驶视频增强了对各种驾驶感知方法的训练。

相关工作回顾

世界模型

世界方法的主要目标是建立动态环境模型，赋予主体对未来的预测能力。在早期的探索中，变分自动编码器（VAE）和长短期记忆（LSTM）被用于捕捉过渡动力学和排序功能，在不同的应用中显示出显著的成功。构建驾驶世界模型带来了独特的挑战，主要源于现实世界驾驶任务固有的高样本复杂性。为了应对这些挑战，ISO Dream引入了将视觉动力学明确分解为可控和不可控状态的方法。MILE战略性地将世界建模纳入鸟瞰图（BEV）语义分割空间。最近，DriveDreamer、GAIA-1、ADriver-I和Drive-WM探索了利用强大的扩散模型或自然语言模型在现实世界中训练驾驶世界模型。然而，这些方法中的大多数在很大程度上依赖于结构化信息（例如，3D框、HDMaps和光流）作为条件。这种独立性不仅限制了互动性，也限制了世代的多样性。

视频生成

视频生成和预测是理解视觉世界的关键技术。在视频生成的早期阶段，探索了变分自动编码器（VAE）、基于流的模型和生成对抗网络（GANs）等方法。语言模型也用于复杂的视觉动力学建模。最近的进展表明，扩散模型对视频生成的影响越来越大。值得注意的是，视频扩散模型在生成具有逼真帧和平滑过渡的高质量视频方面表现出卓越的能力，提供了增强的可控性。这些模型无缝地适应各种输入条件，包括文本、canny、草图、语义图和深度图。在自动驾驶领域，DriveDreamer-2利用强大的扩散模型学习视觉动力学。

交通仿真

驾驶仿真器是自动驾驶开发的基石，旨在提供一个仿真真实世界条件的受控环境。LCTGen使用LLM将详细的语言描述编码为向量，然后使用生成器生成相应的仿真场景。这种方法需要高度详细的语言描述，包括代理的速度和方向等信息。TrafficGen理解交通场景中的固有关系，从而能够在同一地图内生成多样化和合法的交通流。CTG通过采用符合交通约束的手动设计的损失函数来生成交通仿真。CTG++进一步扩展了CTG，利用GPT-4将用户语言描述转换为损失函数，该函数指导场景级条件扩散模型生成相应的场景。在DriveDreamer-2中，我们构建了一个函数库来微调LLM，以实现用户友好的文本到流量仿真，消除了复杂的损失设计或复杂的文本提示输入。

详解DriveDreamer-2

图2展示了DriveDreamer-2的总体框架。首先提出了一种定制的交通仿真来生成前台代理轨迹和后台HDMaps。具体而言，DriveDreamer-2利用微调后的LLM将用户提示转换为代理轨迹，然后引入HDMap生成器，使用生成的轨迹作为条件来仿真道路结构。DriveDreamer-2利用定制的流量仿真管道，能够为后续视频生成生成生成各种结构化条件。在DriveDreamer架构的基础上，提出了UniMVM框架，以统一视图内和视图间的空间一致性，从而增强生成的驾驶视频的整体时间和空间一致性。在接下来的章节中，我们将深入研究定制交通fang'zhen和UniMVM框架的细节。

自定义交通仿真

在所提出的定制交通仿真管道中，构建了一个轨迹生成函数库来微调LLM，这有助于将用户提示转移到不同的代理轨迹中，包括切入和掉头等动作。此外，该管道包含HDMap生成器，用于仿真背景道路结构。在此阶段，先前生成的代理轨迹充当条件输入，确保生成的HDMap符合流量约束。在下文中，我们将详细介绍LLM的微调过程和HDMap生成器的框架。

用于轨迹生成的微调LLM以前的交通仿真方法需要复杂的参数规范，包括代理的速度、位置、加速度和任务目标等细节。为了简化这一复杂的过程，我们建议使用构建的轨迹生成函数库对LLM进行微调，从而将用户友好的语言输入有效地转换为全面的交通仿真场景。如图3所示，构建的函数库包括18个函数，包括代理函数（转向、等速、加速度和制动）、行人函数（行走方向和速度）以及其他实用函数，如保存轨迹。在这些函数的基础上，文本到Python脚本对是手动策划的，用于微调LLM（GPT-3.5）。脚本包括一系列基本场景，如变道、超车、跟随其他车辆和执行掉头。此外，我们还包括更不常见的情况，如行人突然横穿马路，车辆驶入车道。以用户输入的车辆切入为例，相应的脚本包括以下步骤：首先生成切入轨迹（agent.cut_in（）），然后生成相应的ego-car轨迹（agent.forward（））；最后利用实用程序的保存功能，以数组形式直接输出ego-car和其他代理的轨迹。有关更多详细信息，请参阅补充材料。在推理阶段，我们将提示输入扩展到预定义的模板，微调后的LLM可以直接输出轨迹阵列。

HDMap生成综合交通仿真不仅需要前台代理的轨迹，还需要生成后台HDMap元素，如车道和人行横道。因此，提出了HDMap生成器，以确保背景元素与前景轨迹不冲突。在HDMap生成器中，我们将背景元素生成公式化为条件图像生成问题，其中条件输入是BEV轨迹图，目标是BEV HDMap。与以前主要依赖于轮廓条件（边缘、深度、方框、分割图）的条件图像生成方法不同，所提出的HDMap生成器探索前景和背景交通元素之间的相关性。具体地，HDMap生成器是在图像生成扩散模型上构建的。为了训练生成器，我们对HDMap数据集进行轨迹规划。在轨迹图中，指定不同的颜色来表示不同的代理类别。同时，目标HDMap包括三个通道，分别表示车道边界、车道分隔线和行人交叉口。在HDMap生成器中，我们使用2D卷积层的堆栈来合并轨迹图条件。然后，使用将生成的特征图无缝集成到扩散模型中（有关其他架构详细信息，请参见补充）。在训练阶段，扩散正向过程逐渐将噪声ε添加到潜在特征中，从而产生噪声潜在特征。然后我们训练εθ来预测我们添加的噪声，并且HDMap生成器φ通过:

如图4所示，利用所提出的HDMap生成器，我们可以基于相同的轨迹条件生成不同的HDMap。值得注意的是，生成的HDMaps不仅遵守交通约束（位于车道分隔带两侧的车道边界和十字路口的人行横道），而且与轨迹无缝集成。

UniMVM

利用定制交通仿真生成的结构化信息，可以通过DriveDreamer的框架生成多视图驾驶视频。然而，在以前的方法中引入的视图关注并不能保证多视图的一致性。为了缓解这个问题，采用图像或视频条件来生成多视图驾驶视频。虽然这种方法增强了不同观点之间的一致性，但它是以降低发电效率和多样性为代价的。在DriveDreamer-2中，我们在DriveDreamer框架中引入了UniMVM。UniMVM旨在统一多视图驾驶视频的生成，无论是否具有相邻视图条件，这确保了时间和空间的一致性，而不会影响生成速度和多样性。

多视图视频联合分布可以通过以下方式获得:

如图5所示，我们将UniMVM的范式与DriveDreamer[56]和Drive-WM[59]的范式进行了比较。与这些同行相比，UniMVM将多个视图统一为一个完整的视频生成补丁，而不引入跨视图参数。此外，可以通过调整掩码m来完成各种驱动视频生成任务。特别地，当m被设置为掩码未来的T−1帧时，UniMVM基于第一帧的输入启用未来视频预测。将m配置为屏蔽｛FL、FR、BR、B、BL｝视图，使UniMVM能够利用前视图视频输入实现多视图视频输出。此外，当m被设置为屏蔽所有视频帧时，UniMVM可以生成多视图视频，并且定量和定性实验都验证了UniMVM能够以增强的效率和多样性生成时间和空间相干的视频。

视频生成基于UniMVM公式，可以在DriveDreamer[56]的框架内生成驾驶视频。具体来说，我们的方法首先统一了交通结构化条件，这导致了HDMaps和3D盒子的序列。注意，3D框的序列可以从代理轨迹导出，并且3D框的大小是基于相应的代理类别来确定的。与DriveDreamer不同，DriveDreamer-2中的3D盒子条件不再依赖于位置嵌入和类别嵌入。相反，这些框被直接投影到图像平面上，起到控制条件的作用。这种方法消除了引入额外的控制参数，如[56]中所述。我们采用三个编码器将HDMaps、3D框和图像帧嵌入到潜在空间特征yH、yB和yI中。然后，我们将空间对齐的条件yH，yB与Zt连接起来，以获得特征输入Zin，其中Zt是通过前向扩散过程从yI生成的噪声潜在特征。对于视频生成器的训练，所有参数都通过去噪分数匹配进行优化[26]（详见补充）。

实验

用户自定义驾驶视频生成

DriveDreamer-2提供了一个用户友好的界面，用于生成驾驶视频。如图1a所示，用户只需要输入文本提示（例如，在雨天，有一辆汽车驶入）。然后DriveDreamer-2生成与文本输入对齐的多视图驾驶视频。图6展示了另外两个自定义驾驶视频。上图描绘了白天ego汽车向左变道的过程。下图展示了一个意想不到的行人在夜间横穿马路，促使ego汽车刹车以避免碰撞。值得注意的是，生成的视频展示了非凡的真实感，我们甚至可以观察到远光灯在行人身上的反射。

生成视频的质量评估

为了验证视频生成质量，我们将DriveDreamer-2与nuScenes验证集上的各种驾驶视频生成方法进行了比较。为了进行公平的比较，我们在三种不同的实验设置下进行了评估——无图像条件、有视频条件和第一帧多视图图像条件。实验结果如表1所示，表明DriveDreamer-2在所有三种设置中都能始终如一地获得高质量的评估结果。具体而言，在没有图像条件的情况下，DriveDreamer-2的FID为25.0，FVD为105.1，显示出比DriveDreamer的显著改进。此外，尽管仅限于单视图视频条件，但与使用三视图视频条件的DriveWM相比，DriveDreamer-2在FVD方面表现出39%的相对改善。此外，当提供第一帧多视图图像条件时，DriveDreamer-2实现了11.2的FID和55.7的FVD，大大超过了以前的所有方法。

更多可视：

结论和讨论

本文介绍了DriveDreamer-2，这是DriveDreamer框架的创新扩展，开创了用户自定义驾驶视频的生成。DriveDreamer-2利用大型语言模型，首先将用户查询转移到前台代理轨迹中。然后，可以使用所提出的HDMap生成器生成背景交通状况，并将代理轨迹作为条件。生成的结构化条件可以用于视频生成，我们提出了UniMVM来增强时间和空间的一致性。我们进行了广泛的实验来验证DriveDreamer-2可以生成不常见的驾驶视频，例如车辆的突然机动。重要的是，实验结果展示了生成的视频在增强驾驶感知方法训练方面的效用。此外，与最先进的方法相比，DriveDreamer-2显示出卓越的视频生成质量，FID和FVD得分分别为11.2和55.7。这些分数代表了大约30%和50%的显著相对改进，肯定了DriveDreamer-2在多视图驾驶视频生成方面的功效和进步。

#TrajectoryNAS

一种用于轨迹预测的神经结构搜索

论文链接：https://arxiv.org/pdf/2403.11695.pdf

摘要

本文介绍了TrajectoryNAS：一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术，其可以实现无人驾驶汽车的量产。轨迹预测是自动驾驶系统的一个关键组成部分，其使汽车能够预测周围目标的运动，从而实现安全导航。由于使用激光雷达点云数据的轨迹预测提供了3D信息，因此其比使用2D图像的轨迹预测表现更好。然而，处理点云数据比2D图像更复杂、更耗时。因此，使用点云数据的最先进的3D轨迹预测存在速度慢和错误预测等问题。本文引入了TrajectoryNAS，这是一种着重于利用点云数据进行轨迹预测的开创性方法。通过利用神经结构搜索（NAS），TrajectoryNAS自动化轨迹预测模型的设计，以凝聚的方式包含目标检测、跟踪和预测。这种方法不仅解决了这些任务之间复杂的相互依赖关系，还强调了轨迹建模中准确性和效率的重要性。通过实证研究，TrajectoryNAS展现了其在提高自动驾驶系统性能方面的有效性，标志着该领域取得了重大进展。实验结果表明，与其它轨迹预测方法相比，TrajectoryNAS在nuScenes数据集上的准确性至少提高了4.8%，延迟至少降低了1.1倍。

主要贡献

本文的贡献总结如下：

1）本文提出了TrajectoryNAS，它是自动驾驶轨迹预测领域中的先驱工作。与先前工作不同，本文方法是首次以端到端的方式实现神经架构搜索（NAS），包含目标检测、跟踪和预测。这种全面集成解决了子任务（例如点云处理、检测和跟踪）之间的相互依赖性所带来的复杂挑战；

2）本文利用了高效的小型数据集。为了满足与神经结构搜索相关的计算要求，本文方法引入了高效的两步过程。首先，本文采用一个小型数据集来加速最优结构的识别。随后，将识别的结构应用于完整的数据集，以确保可扩展性和准确性。这种精简的方法在处理大量数据集时特别有价值；

3）本文设计了开创性的多目标能量函数：本项工作的一个关键创新点是引入一种新的多目标能量函数。该能量函数考虑了目标检测、跟踪、预测和时间约束。通过将这些不同的要素加入一个统一的框架中，本文方法超越了那些通常忽略这些目标之间复杂关系的现有方法。新的能量函数增强了TrajectoryNAS的预测能力，提高了其在现实世界场景中的性能。

论文图片和表格

总结

本文提出了TrajectoryNAS，这是一种自动模型设计方法，其显著增强了自动驾驶的3D轨迹预测。通过在考虑关键性能指标的同时对速度和准确性进行优化，TrajectoryNAS在nuScenes数据集上的准确性至少提高了4.8%，延迟至少降低了1.1倍，其优于现有方法。

#DualBEV

这篇论文探讨了在自动驾驶中，从不同视角（如透视图和鸟瞰图）准确检测物体的问题，特别是如何有效地从透视图（PV）到鸟瞰图（BEV）空间转换特征，这一转换是通过视觉转换（VT）模块实施的。现有的方法大致分为两种策略：2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征，但深度预测的固有不确定性，尤其是在远处区域，可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征，并通过Transformer学习3D和2D特征之间对应关系的注意力权重，这增加了计算和部署的复杂性。

论文指出，现有的方法如HeightFormer和FB-BEV尝试结合这两种VT策略，但这些方法通常采用两阶段策略，由于双VT的特征转换不同，受到初始特征性能的限制，从而阻碍了双VT之间的无缝融合。此外，这些方法在实现自动驾驶的实时部署方面仍面临挑战。

针对这些问题，论文提出了一种统一的特征转换方法，适用于2D到3D和3D到2D的视觉转换，通过三种概率测量来评估3D和2D特征之间的对应关系：BEV概率、投影概率和图像概率。这一新方法旨在减轻BEV网格中空白区域对特征构建的影响，区分多个对应关系，并在特征转换过程中排除背景特征。

通过应用这种统一的特征转换，论文探索了使用卷积神经网络（CNN）进行3D到2D视觉转换的新方法，并引入了称为HeightTrans的方法。除了展示了其卓越的性能外，还展示了通过预计算加速的潜力，使其适用于实时自动驾驶应用。同时，通过整合这种特征转换，增强了传统的LSS流程，展示了其对当前检测器的普适性。

结合HeightTrans和Prob-LSS，论文介绍了DualBEV，这是一种创新的方法，它在一阶段内就考虑并融合了来自BEV和透视视图的对应关系，消除了对初始特征的依赖。此外，提出了一个强大的BEV特征融合模块，称为双特征融合（DFF）模块，通过利用通道注意力模块和空间注意力模块，进一步帮助精细化BEV概率预测。DualBEV遵循“广泛输入，严格输出”的原则，通过利用精确的双视图概率对应关系来理解和表示场景的概率分布。

论文的主要贡献如下：

揭示了3D到2D和2D到3D视觉转换之间的内在相似性，并提出了一种统一的特征转换方法，能够从BEV和透视视图两个方面准确建立对应关系，显著缩小了双策略之间的差距。
提出了一种新的基于CNN的3D到2D视觉转换方法HeightTrans，通过概率采样和查找表的预计算，有效且高效地建立精确的3D-2D对应关系。
引入了DFF用于双视图特征融合，这种融合策略在一阶段内捕获近远区域的信息，从而生成全面的BEV特征。
他们的高效框架DualBEV在nuScenes测试集上实现了55.2%的mAP和63.4%的NDS，即使没有使用Transformer，也突显了捕获精确双视图对应关系对视图转换的重要性。

通过这些创新，论文提供了一种克服现有方法限制，实现高效、准确物体检测的新策略，特别是在自动驾驶等实时应用场景中。

详解DualBEV

这篇论文提出的方法旨在通过统一的特征转换框架，DualBEV，解决自动驾驶中的BEV（鸟瞰图）对象检测问题。以下是方法部分的主要内容，概括了其不同子部分和关键创新。

DualBEV概述

HeightTrans

BEV Height

HeightTrans方法在处理高度时采用了一种多分辨率采样策略，覆盖整个高度范围（从-5米到3米），在兴趣区域（ROI，定义为-2米到2米内）的分辨率为0.5米，在此范围外的分辨率为1.0米。这种策略有助于增加对小物体的关注，这些小物体可能会在更粗糙的分辨率采样中被遗漏。

Prob-Sampling

HeightTrans在概率采样方面采用了以下步骤：

加速

通过预计算3D点在BEV空间中的索引，并在推理期间固定图像特征索引和深度图索引，HeightTrans能够加速视觉转换过程。最终的HeightTrans特征通过对每个BEV网格中预定义

Prob-LSS

Prob-LSS扩展了传统的LSS（Lift, Splat, Shoot）管道，通过预测每个像素的深度概率来促进其投影到BEV空间。该方法进一步整合了BEV概率，通过以下公式构建LSS特征：

这样做可以更好地处理深度估计中的不确定性，从而减少BEV空间中的冗余信息。

双特征融合（Dual Feature Fusion, DFF）

DFF模块旨在融合来自HeightTrans和Prob-LSS的特征，并有效地预测BEV概率。通过结合通道注意力模块和空间注意力增强的ProbNet，DFF能够优化特征选择和BEV概率预测，以增强对近处和远处对象的表征。这种融合策略考虑了来自两个流的特征的互补性，同时也通过计算局部和全局注意力来增强BEV概率的准确性。

总之，这篇论文提出的DualBEV框架通过结合HeightTrans和Prob-LSS，以及创新的双特征融合模块，实现了对3D和2D特征之间对应关系的高效评估和转换。这不仅桥接了2D到3D和3D到2D转换策略之间的差距，而且还通过预计算和概率测量加速了特征转换过程，使其适合实时自动驾驶应用。

该方法的关键在于对不同视角下的特征进行精确对应和高效融合，从而在BEV对象检测中实现了出色的性能。

实验

DualBEV方法的变体（带星号的DualBEV* ）在单帧输入条件下表现最佳，达到了35.2%的mAP和42.5%的NDS，这表明它在准确性和综合性能上都超过了其他方法。特别是在mAOE上，DualBEV*实现了0.542的分数，这是单帧方法中最好的。然而，它在mATE和mASE上的表现并没有明显优于其他方法。

当输入帧数增加到两帧时，DualBEV的表现进一步提升，mAP达到38.0%，NDS达到50.4%，这是所有列出方法中最高的NDS，表明DualBEV在处理更复杂的输入时能够更全面地理解场景。在多帧方法中，它在mATE、mASE、和mAAE上也展现了较强的性能，特别是在mAOE上有明显的改善，显示出其在估计物体方向上的优势。

从这些结果可以分析得出，DualBEV及其变体在多个重要的性能指标上均有出色表现，尤其是在多帧设置下，表明其对BEV对象检测任务具有较好的准确性和鲁棒性。此外，这些结果还强调了使用多帧数据的重要性，可以提高模型的整体性能和估计准确性。

下面是对各个消融实验结果的分析：

添加ProbNet、HeightTrans、CAF（Channel Attention Fusion）、SAE（Spatial Attention Enhanced）等组件逐步提升了Baseline的性能。
HeightTrans的加入显著提高了mAP和NDS，这表明在视觉转换中引入高度信息是有效的。
CAF进一步提升了mAP，但略微增加了延迟。
SAE的引入提升了NDS到最高的42.5%，同时对mAP也有提升，说明空间注意力机制有效地增强了模型性能。

当全部三种概率同时使用时，模型达到了最高的mAP和NDS，这表明这些概率的结合对于模型性能至关重要。
Prob-Sampling在相似的延迟下（0.32ms），比其他的VT操作具有更高的NDS（39.0%），这强调了概率采样在性能上的优越性。
多分辨率（MR）采样策略相对于均匀采样策略，在使用相同数量的采样点时能达到相似或更好的性能。
通过将投影概率、图像概率和BEV概率加入到LSS流程，Prob-LSS的表现超过了其他的LSS变体，提高了mAP和NDS，显示了结合这些概率的有效性。
与多阶段的精细化（Refine）策略相比，单阶段的添加（Add）策略和DFF模块都能取得更高的NDS，而DFF在mAP上也有轻微的提升，这表明DFF作为一种单阶段的融合策略，在效率和性能上都是有益的。

消融实验表明了HeightTrans、概率措施、Prob-Sampling和DFF等组件及策略对提高模型性能至关重要。此外，多分辨率采样策略在高度信息上的使用也证明了其有效性。这些发现支持了作者在方法部分提出的每一项技术都对模型性能有正面贡献的论点。

讨论

这篇论文通过一系列消融实验展示了其方法的性能。从实验结果可以看出，论文提出的DualBEV框架和它的各个组成部分均对提高鸟瞰图（BEV）对象检测的准确性具有积极影响。

论文的方法通过将ProbNet、HeightTrans、CAF（Channel Attention Fusion）、和SAE（Spatial Attention Enhanced）模块逐步引入到基线模型中，显示出在mAP和NDS两个指标上均有显著提升，这证明了每个组件在整个架构中都发挥了重要作用。尤其是引入SAE后，NDS得分提高到了最高点42.5%，同时延迟只有轻微增加，这表明了该方法在精度和延迟之间取得了良好的平衡。

概率消融实验结果进一步证实了投影概率、图像概率和BEV概率在提高检测性能方面的重要性。当这些概率被逐一引入时，系统的mAP和NDS得分稳步提升，这表明了将这些概率措施集成到BEV对象检测任务中的重要性。

在视觉转换（VT）操作的比较中，论文提出的Prob-Sampling方法与其他操作如SCAda和Bilinear-Sampling相比，显示出较低的延迟和更高的NDS得分，这强调了其在效率和性能上的优势。此外，对于不同的高度采样策略，采用多分辨率（MR）策略而不是统一采样能够进一步提高NDS得分，这表明了考虑场景中不同高度的信息对于提升检测性能的重要性。

此外，对于不同的特征融合策略，论文展示了DFF方法在简化模型的同时，依然能够维持高NDS得分的能力，这意味着在一阶段处理流程中融合双流特征是有效的。

然而，尽管论文提出的方法在多个方面表现出色，每项改进也都会导致系统复杂度和计算成本的增加。例如，每引入一个新的组件（如ProbNet、HeightTrans等），系统的延迟都会有所增加，尽管延迟的增加是微小的，但在实时或低延迟要求的应用中，这可能成为考虑因素。此外，虽然概率措施有助于性能提升，但也需要额外的计算资源来估计这些概率，可能导致更高的资源消耗。

论文提出的DualBEV方法在提高BEV对象检测的精度和综合性能方面取得了显著的成果，特别是在将深度学习的最新进展与视觉转换技术相结合的方面。但这些进步是以轻微增加计算延迟和资源消耗为代价的，实际应用时需要根据具体情况权衡这些因素。

结论

该方法在BEV对象检测任务中表现出色，显著提高了准确性和综合性能。通过引入概率采样、高度转换、注意力机制和空间关注增强网络，DualBEV成功地提升了多个关键性能指标，特别是在鸟瞰图（BEV）的精度和场景理解方面。实验结果表明，论文的方法在处理复杂场景和不同视角数据时尤为有效，这对于自动驾驶和其他实时监控应用至关重要。