自动驾驶中基于潜在世界模型学习多概率决策(LatentDriver)

embedded/2025/3/18 5:58:30/

Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving

问题

图a是将模型与规划器结合，但是这样对不确定性的考虑不全面，尤其是在涉及到自车与环境交互时的动作
图b是将世界模型的知识隐式地转移到规划器中，并对它们进行联合优化。这些方法未能充分发挥自回归模型的潜力
第一个问题是对不确定性的考虑不全面，尤其是在涉及到自车与环境交互时的动作。驾驶场景本质上是随机的，决策不应被视为单模态问题。可能存在多种有效的选择，每个选择代表分布的不同模式。另一个挑战是自欺问题。
第二个问题是自欺问题
自欺问题：过度依赖于基于历史动作的预测（例如：车辆前方突然出现障碍物，自回归世界模型依据之前的行驶动作预测车辆可以继续按原路线行驶，但规划器需要根据当前观测到的障碍物来决策，若规划器受到模型预测的干扰，忽视当前观测，就会导致危险，这就是自欺问题的体现）

创新点

核心观点是：假设动作和状态的分布以及它们的组合是多概率的
世界模型和规划器之间的交互是双向且完全随机的，最终动作是从它们的混合分布中推导出来的(图c)
在这里插入图片描述

具体来说，我们引入了多概率规划器（MPP），它通过混合高斯分布 [18,19] 将自车的动作建模为一个随机过程。MPP 采用多层 Transformer 结构，每一层都根据潜在世界模型（LWM）的输出优化动作分布。因此，它自然地捕捉到了自车的随机动作。为了缓解联合优化过程中的自欺问题，从 MPP 中间层采样得到的动作被用作真实动作的估计，减少了最终决策对历史动作的依赖

具体内容

在这里插入图片描述
LatentDriver框架：原始观测首先被矢量化，然后输入到场景编码器中。中间动作分布由多概率规划器（MPP）的中间层生成。
潜在世界模型（LWM）在接收到中间动作后，预测下一个潜在状态并将其表示为一种分布。
然后，动作分布和潜在状态分布通过 MPP 的后续层进行组合，形成一个混合分布，最终的控制信号由此导出