CALMM-Drive：首个引入置信度感知的大多模态模型驱动的自动驾驶框架

导读：

本文提出的CALMM-Drive，它是首个引入置信度感知大型多模态模型（LMM）驱动的自动驾驶框架，通过采用Top-K置信度引导，能够生成多个候选决策及其置信度级别。在nuPlan闭环仿真环境中的评估结果表明，验证其可靠和灵活的驾驶性能方面的有效性，展示了在LMM加持下的自动驾驶车辆中整合不确定性的显著进展。

©️【深蓝AI】编译

论文标题：CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multimodal Model

论文地址：http://arxiv.org/abs/2412.04209

论文作者：Ruoyu Yao, Yubin Wang, Haichao Liu, Rui Yang, Zengqi Peng, Lei Zhu,Jun Ma

1.背景介绍

决策和运动规划是自动驾驶车辆（AVs）的关键组成部分，直接影响安全性、效率和驾驶性能的一致性。该领域现有的方法通常分为两种范式：先决策后规划（decision then planning）或先生成后评分（generation then scoring）。虽然第一种范式在概念上简单明了，但它难以解决决策过程与规划过程之间的潜在不一致。相比之下，第二种范式生成多模态轨迹候选，能够基于与不同轨迹相关的明确性能评分进行知情决策。然而，设计一种适当的评分机制，以有效平衡操作效用与战术有效性，仍然是一个问题。

一般对多模态轨迹候选的评分和选择过程的探索包括基于规则和基于学习的方法。

基于规则的方法依赖于手工设计的函数，结合多个指标，通过有效捕捉复杂的轨迹特征以可解释的方式展示了卓越的闭环驾驶性能。然而，它往往难以在多样化的驾驶场景中进行泛化，导致不灵活甚至过于保守的驾驶行为。
相反，基于学习的方法，如逆强化学习和端到端学习，能够通过从人类驾驶经验中学习来捕捉奖励或成本模型，从而展示出更人性化的驾驶性能。但同时，传统的基于学习的方法往往难以泛化到长尾和具有挑战性的场景，主要是因为它们的训练局限于特定领域的数据拟合，缺乏广泛的现实世界知识基础。

近来，大语言模型（LLMs）和大多模态模型（LMMs）在自动驾驶中的研究也有进步。这些大型模型赋能的方法在各种任务中展现了强大的泛化性能，利用了链式思维推理、工具调用和终身学习。特别的是，有些方法将基于LMM的模块与基于规则的评分器相结合，以评估自动驾驶车辆的多模态运动规划，使LMM能够根据不同的交通情况自适应调整基于规则的评分器的权重，从而显著提高驾驶舒适性。此外，提出了一种综合框架，利用来自AI反馈的强化学习，通过对不同联合预测场景的偏好表达来帮助学习奖励模型。尽管取得了这些进展，但必须承认LLM推理固有的不确定性。

还有研究表明，LLM可能会被误导生成不准确的响应，而未意识到存在多个可能的解决方案，这在应用于风险敏感领域如自动驾驶时带来了挑战。因此，作者提出了一个关键问题：LMM能否在应对自动驾驶的决策时表达其不确定性，从而为构建可信赖的自动驾驶系统奠定基础？

为了解决这个问题，本文引入CALMM-Drive，它是一种置信度感知（confidence-aware）的大多模态模型驱动的自动驾驶框架。该框架采用Top-K置信度引导，使决策代理能够生成多个候选响应及其置信度水平。作者提出了一种新的范式，即引导生成后进行置信度感知评分，结合扩散模型进行决策引导的多模态轨迹生成，以及层次化精炼过程进行轨迹选择。该框架旨在增强自动驾驶系统的可靠性和灵活性，降低一次性决策的风险，并避免基于规则评分所造成的陷阱。如图1所示。

图 1 | 决策规划范式与本文框架范式对比©️【深蓝AI】编译

本文贡献如下：

本文提出了一种首个由LMM引导的置信度感知自动驾驶框架，以增强LMM赋能自动驾驶系统的鲁棒性。
还开发了一种引导轨迹生成和层次化精炼模块，通过将决策中的置信度、运动规划中的效用和决策与规划的一致性结合起来，以获得最佳轨迹，从而应对传统基于评分方法固有的长尾挑战。
在nuPlan闭环仿真环境中的全面评估表明，该方法具备可靠和灵活的驾驶性能方面的有效性。

2.相关研究

大模型赋能的智能体：LLMs和LMMs的普及在机器人操作和自动驾驶领域有多种应用。在机器人领域，将大型模型的语义知识应用于机器人手臂操作、移动机器人导航、无人机控制等方面。这些大模型赋能的智能体表现出优越的泛化能力和比传统基于学习的方法更好的可解释性。在自动驾驶方面，将大模型应用于解决长尾分布的挑战。例如，基于Qwen-VL的多模态理解能力，提出了一个混合系统，将LMM基础的推理模块与传统的自动驾驶管道结合用于运动规划。尽管这些方法取得了一些进展，但一个显著的差距依然存在：现有研究尚未解决LLMs和LMMs在做出驾驶决策时固有的不确定性，这可能削弱提议系统的鲁棒性并导致不理想的结果。

深度不确定性估计： 不确定性估计一直是深度学习社区中的一个关键研究领域。早期的研究构建了贝叶斯神经网络，通过贝叶斯推理量化模型的不确定性。然而，贝叶斯推理所带来的高计算成本促使引入了作为可行近似的蒙特卡罗丢弃方法。这种方法允许在不改变模型结构或显著增加计算需求的情况下进行不确定性估计。此外，深度集成的概念被提出作为一种简单而有效的策略来估计模型的不确定性，展示了可扩展性和鲁棒性。在这些技术的基础上，对于语言模型的不确定性量化的研究也得到了发展。值得注意的是，传统的不确定性估计方法通常假设对模型结构和权重有白盒访问权限，这限制了它们在封闭源LLMs中的应用。考虑在驾驶决策中固有的随机性和多模态性，Top-K置信度引导为增强LMM激励的自动驾驶系统中的置信度感知提供了一个引人注目的方法。

自动驾驶中的不确定性： 自动驾驶中的不确定性已从不同的角度进行了探讨。在感知和预测领域，重大努力集中在量化与对象分类、空间定位、意图识别和行为预测相关的不确定性。在决策和运动规划的背景下，研究了在战术决策中评估强化学习策略的置信度、建模系统动态的不准确性以及量化端到端规划框架中的不确定性。这些研究强调了在自动驾驶系统中纳入不确定性考虑的必要性，以更好地确保鲁棒性，这也是基于大型模型的方法应整合的一个因素。

3.方法精析

CALMM-Drive的整体架构如图2所示，主要由两个组成部分构成：一个基于LMM的决策智能体，用于Top-K置信度驾驶决策推理，以及一个轨迹生成和精炼模块，该模块根据LMM智能体的指导生成运动规划提案并层次选择所需轨迹。

图 2 | CALMM-Drive框架©️【深蓝AI】编译

3.1 用于具身决策的大多模态模型代理

3.1.1 多模态上下文输入

为了增强基于LMM的决策智能体对驾驶环境的理解，在每个推理时间步t，提供鸟瞰图（BEV）图像 $I_t$ 和文本描述 $D_t$ ，以表示交通场景和驾驶任务。这样智能体能够捕捉整体交通场景以及周围物体的细微特征。

BEV上下文表示， 通过构建一个以自车为中心的BEV图像，覆盖100米×100米的区域，以表示驾驶环境。图像的朝向使得自车面朝上，形成标准格式。图像展示了：

地图对象：车道、车道连接和人行道。
移动对象：自车、周围车辆和周围的脆弱道路用户（VRUs），即行人和骑自行车的人。
静态对象：数据集中记录的所有静态对象。
导航标记：根据全球导航的目标车道出口点。

对于运动对象，绘制了速度箭头以表示速度的大小和方向。不同的对象用特定的颜色和形状表示其语义，如图3所示。

图3 | BEV描述©️【深蓝AI】编译

文本描述，由系统消息和人类消息组成。系统消息提供对自动驾驶任务的全局解释、BEV注释规则和响应格式，用于传达当前驾驶场景、周围物体的状态以及决策过程的指令。作者将驾驶场景分为正常的多车道驾驶、接近交叉口的多车道驾驶和交叉口驾驶，并开发了单独的提示模板以捕捉相关对象。周围车辆和VRUs的状态通过与自车的距离和视线（LoS）角度、速度、航向和车道信息（如适用）进行描述。决策指令使得智能体能够在根据定义的动作空间A提供Top-K置信度答案之前应用链式思维推理。为了促使LMM智能体根据分析的驾驶上下文准确表达其置信度，在消息中提供不同置信度级别的常识解释，如表1所示。

表 1 | 置信度级别解释©️【深蓝AI】编译

3.1.2 Top-K个可信的驾驶决策输出

Top-K可信的决策推理要求智能体接收多模态上下文输入，并生成K个合理的动作及其对应的置信度：

（公式 1）

其中, $\mathcal a_t$ 中的元素表示在动作空间 $\mathcal A$ 中的候选动作，而中的每个元素表示介于[0, 1]之间的置信度级别。将 $\mathcal A$ 构建为纵向动作空间和横向动作空间的笛卡尔积。纵向可用动作包括加速（A）、减速（D）和巡航（C）。在自车行驶在多车道道路的情况下，横向可用动作包括左变道（L）、右变道（R）和保持当前车道（K）。如果自车处于交叉口，则横向动作限制为遵循导航（N）。

3.2 引导轨迹生成和分层精细化

3.2.1 目标函数

将智能体做出的每个候选决策映射到相应的目标函数，以指导下游运动规划。映射通过将决策跟随目标与表示轨迹一般优良性的基本目标相乘来实现，表达为：

$J^k = (J_f^k)^{\omega_f} \cdot (J_g^k)^{\omega_g}, \forall k \in \{1,...,K\}$ （公式 2）

其中， $J_k^f$ 表示第k个候选决策 $a_t^k$ 的决策跟随目标， $J_g$ 表示一般目标。 $J_f^k$ 和 $J_g$ 均位于[0, 1]之间。 $\omega_f, \omega_g \in \mathbb R^+$ 是可调参数，用于控制两个子目标的相对重要性。对于决策跟随目标的定义，通过应用：

(公式 3)

其中， $v_\tau$ 和 $\mathcal x_\tau$ 分别表示时间步时的自车速度和自车坐标， $v_r^{\tau}(a_t^k, v_t)$ 和 $\mathcal {x}_{\tau}^r(a_t^k, \mathcal x_t)$ 表示从预定义查找表中根据当前决策和状态获得的参考速度和车道中心线上的参考航点坐标。 $T$ 和 $\Delta t$ 分别表示规划范围和时间分辨率。 $d_{max}$ 是一个常数，表示最大可接受的横向偏差。对于一般目标 $J_g$ ，采用常用预测驾驶模型评分器，它在评估轨迹性能的多个详细方面（包括碰撞时间、舒适度、驾驶方向合规性等）方面具有可用性。

3.2.2 无梯度基于扩散运动规划

在创建了 K 个目标后，接下来进行决策引导的轨迹生成和第一阶段的优化：

$(\mathbf{X}^k)^* = \underset{\mathbf{X}^k_n \in \mathcal{X}^k}{arg \ max} J^k(\mathbf{X}^k_n), \forall k \in \{1, 2,..., K\}$ （公式 4）

其中 $\mathcal X^k$ 表示在决策 $k$ 下生成的轨迹提议集合，满足 $|\mathcal X_k| = N$ 。得分最高的提议 $(X_k)^*$ 被选为输出。扩散模型的强大的生成能力使其成为在运动规划中提供轨迹提议的先进方法。本文采用 Diffusion-ES 来获取每个决策下的轨迹提议，它能够适应该目标的任意形式，并结合了进化策略的无梯度优化。最后执行一个去噪、评分、采样和重新去噪的迭代过程，以将轨迹变异为所需的提议：

（公式 5）

在此过程中，公式(5a) 首先利用训练好的参数对随机输入 $\tilde{\mathcal X}$ 进行去噪，获得干净样本 $\mathcal X$ 。随后的采样过程采用公式(5b) 计算抽取每个干净样本的概率 $q(\mathcal X_n)$ ，根据目标函数测量的得分来确定，其中 $\mu$ 作为温度参数。由于得分较高的轨迹与较高的采样概率相关，因此一组精英轨迹被收集，如公式(5c) 所示，满足 $|\mathcal Y| = N$ 。这些轨迹在添加高斯噪声的步骤 $j$ 中通过方差调度转变为 $\tilde{\mathcal Y}$ ，其中 $\beta_j \in (0, 1)$ 。最后，去噪过程将 $\tilde{\mathcal Y}$ 恢复为 $\mathcal X^k$ ，即一组由决策 $k$ 引导的提议集。公式(5b) 到公式(5e) 进行迭代运行，以在没有梯度信息的情况下提供高质量的提议。

3.2.3 基于置信度感知的轨迹选择

第二阶段的精炼涉及在运动规划器生成的 $K$ 个多模态候选中选择最佳轨迹。利用以下表达式来同时捕捉决策置信度和运动规划质量，以对候选进行评分：（公式 6）

其中 $\omega_c \in \mathbb R^+$ 是一个可调权重，表示代理决策置信度在综合评分中的相对重要性。 $\tilde{J}^k$ 的计算与 $J^k$ 相同，仅参数设置有所不同，这允许对不同的轨迹选择偏好进行调整。在第一阶段采用较大的 $\omega_f$ 来鼓励决策遵循，而在第二阶段则选择较小的 $\tilde{\omega}_f$ 以平衡整体效用。通过分层精炼过程，低解决方案质量或战术置信度不足的候选会被惩罚。这使得在相较于确定性的决策先行再规划的流程中捕捉潜在的规划层面失败成为可能，并且比传统的生成再评分系统更好地考虑战术价值，后者依赖于固定的评分函数，本质上反映了短期驾驶效用。

4.实验分析

仿真平台，在nuPlan对CALMM-Drive进行评估，该平台作为一个通用基准，基于各种真实世界的交通场景构建，用于测试闭环驾驶性能。作者通过引入的Test14-hard进行评估，该测试包含nuPlan规划挑战中的14种场景类型，每种类型包含20个长尾场景。实验在非反应模式和反应模式下进行，分别应用日志重放和智能驾驶模型（IDM）模拟器[18]来控制周围车辆的行为，而行人和骑自行车者的行为则根据平台设置在两种模式下遵循日志重放。其次，采用nuPlan指定的非反应闭环得分（NR-CLS）和反应闭环得分（R-CLS）来测量安全性、进展、舒适度等方面的定量性能。此外，引入了非反应漏失率（NR-MR）和反应漏失率（R-MR）指标，以测量自动驾驶系统在测试场景中得分为0的百分比，表示系统在碰撞、超出可驾驶区域、不正确的驾驶方向和低进展等至少一个方面引发严重故障的频率。在所有仿真中，采用线性二次调节器跟踪器将规划轨迹映射到控制输入，这些输入被发送到运动学自行车模型以模拟动态。

实施细节，通过采用GPT-4o作为LMM构建决策智能体，利用LangChain进行会话管理。Diffusion-ES的训练和部署遵循文献中指定的高效版本，其中去噪步骤为10，去噪-再噪声迭代为2，唯一不同的是将提案数量设置为128（而不是32）。详细参数设置见表2。

4.1 定量研究

通过与以下方法进行比较评估：

PDM-Closed：一个基于规则的规划器，应用IDM生成基于车道中心线的轨迹规划提案。根据预定义的PDM评分器采用得分最高的轨迹进行跟踪。
UrbanDriverOL：一个基于变换器的模仿策略。采用在nuPlan中重新实现的开放环版本。
RasterModel：一个基于CNN的模仿策略，将栅格化的BEV图像映射到规划输出。
PlanTF：一个基于变换器的模仿策略，以地图、代理特征和自车特征作为输入，联合预测代理的行为和自车规划。该模型在nuPlan Test14-hard基准中作为强基线。
Diffusion-ES：一个结合无条件扩散和进化策略的运动规划器，在评分函数上进行测试时优化，已成为nuPlan Val-14基准中的最新方法，主要由常规场景组成。

对于消融研究，通过引入以下模型变体与完整版本（命名为CALMM-Drive (K=3, complete)）进行性能比较：

CALMM-Drive (K=1)：基于LMM的智能体推断出一个唯一的驾驶决策，而不进行置信度引导。
CALMM-Drive (K=3, fixed scorer)：基于LMM的智能体推断出Top-3候选决策。在候选中选择得分最高的轨迹作为输出。

定量结果如表3所示：

本文的LMM赋能方法在所有比较方法中表现出最低的漏失率，在两种测试设置下都显示出在应对长尾挑战场景时避免严重故障的有效性。这可以归因于LMM智能体的泛化能力，能够在适当的场景表示和任务描述下以零样本方式很好地理解驾驶决策的目标。
本文方法的闭环得分仅低于类似nuPlan指标的固定PDM评分器方法。这是可以理解的，因为对PDM评分器的调制在引导轨迹生成和精炼过程中引入了与原始指标的偏差。尽管如此，CALMM-Drive的NR-CLS和R-CLS均显著优于基于IL的方法，NR-CLS甚至超过了PDM-closed，显示出其规划输出的一般优良性。
Top-K置信度引导的使用有助于提高闭环驾驶的可靠性，这可以通过完整模型和消融版本的性能比较来体现。在确定性设置中，CALMM-Drive (K=1)在做出适当决策方面表现较差，考虑到多模态驾驶操作的复杂性。此外，在CALMM-Drive (K=3, fixed scorer)中天真的使用PDM评分器导致其性能甚至低于确定性策略。这可能是由于在缺乏决策置信度的情况下选择了不合理但得分较高的操作（例如，过于保守的慢速驾驶）。

4.2 定性研究

如图4，CALMM-Drive与Diffusion-ES的定性结果比较。

在第一个场景中，当一个行人突然出现在车道上时，Diffusion-ES规划器采取了制动措施以避免碰撞。然而，尽管行人在前方保持静止，自驾车辆却没有试图绕过障碍物继续行驶。相反，CALMM-Drive通过变换到右车道来处理潜在风险，类似于专家轨迹，并在“CR”上保持了最高置信度，从而实现安全性和效率的平衡。在第二个场景的开始，自驾车辆在接近交叉口时减速，以便让附近的行人过马路。关键步骤的快照表明，随着行人走开，Diffusion-ES规划器陷入了僵局，由于无效的评分机制，无法加速。长尾场景则被LMM代理很好地捕捉到，该代理在考虑行人与自驾车辆之间的空间关系时，表现出较高的加速置信度。

4.3 候选数量K影响的分析

在不同K值的设置下评估闭环驾驶性能，使用从Test14-hard基准中随机选择的40个样本子集。表4的结果表明，允许代理提供3个候选决策的表现优于2个合理输出的设置，在各项指标上均是如此。然而，增加决策候选人数并不总是导致性能的提升。具体而言，当K超过3时，会观察到不同测试条件下的性能下降和不稳定性。这表明，随着决策过程复杂性的增加，从模型中获得可靠置信度的挑战也在增加。

5.总结展望

总之，本文提出了一种基于LMM的自主驾驶框架CALMM-Drive，它利用置信度引导生成高效、灵活和可靠的驾驶决策。该方法在最具挑战性的nuPlan基准测试中取得了良好的闭环驾驶评分。此外，相较于现有的最先进方法，还展示了更强的能力，以确保驾驶的成功。通过整合置信度感知，完整的流程在各个变体上获得了显著改善，这表明鼓励多模态决策推理和将规划质量与战术有效性结合在轨迹选择中的重要性。

但是，当前框架仍有进一步改进的空间。首先，可以研究将代理的高层决策平滑地转换为轨迹规划的方法，这将更有利于驾驶的舒适性，尤其是在不同操控之间切换时。其次，尽管该流程目前以zero-shot的方式运作，但可以考虑引入一个长期记忆模块，以增强基于知识的上下文学习能力。此外，考虑引入另一个代理，以评估是否应激活具身决策也是令人鼓舞的。这预计将提升处理长尾案例的能力，同时保持正常案例的推理效率。