自动驾驶中基于潜在世界模型学习多概率决策(LatentDriver)

embedded/2025/3/18 5:58:30/

Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving

问题

图a是将模型与规划器结合,但是这样对不确定性的考虑不全面,尤其是在涉及到自车与环境交互时的动作
图b是将世界模型的知识隐式地转移到规划器中,并对它们进行联合优化。这些方法未能充分发挥自回归模型的潜力
第一个问题是对不确定性的考虑不全面,尤其是在涉及到自车与环境交互时的动作。驾驶场景本质上是随机的,决策不应被视为单模态问题。可能存在多种有效的选择,每个选择代表分布的不同模式。另一个挑战是自欺问题。
第二个问题是自欺问题
自欺问题:过度依赖于基于历史动作的预测(例如:车辆前方突然出现障碍物,自回归世界模型依据之前的行驶动作预测车辆可以继续按原路线行驶,但规划器需要根据当前观测到的障碍物来决策,若规划器受到模型预测的干扰,忽视当前观测,就会导致危险,这就是自欺问题的体现)

创新点

核心观点是:假设动作和状态的分布以及它们的组合是多概率的
世界模型和规划器之间的交互是双向且完全随机的,最终动作是从它们的混合分布中推导出来的(图c)
在这里插入图片描述

具体来说,我们引入了多概率规划器(MPP),它通过混合高斯分布 [18,19] 将自车的动作建模为一个随机过程。MPP 采用多层 Transformer 结构,每一层都根据潜在世界模型(LWM)的输出优化动作分布。因此,它自然地捕捉到了自车的随机动作。为了缓解联合优化过程中的自欺问题,从 MPP 中间层采样得到的动作被用作真实动作的估计,减少了最终决策对历史动作的依赖

具体内容

在这里插入图片描述
LatentDriver框架:原始观测首先被矢量化,然后输入到场景编码器中。中间动作分布由多概率规划器(MPP)的中间层生成。
潜在世界模型(LWM)在接收到中间动作后,预测下一个潜在状态并将其表示为一种分布。
然后,动作分布和潜在状态分布通过 MPP 的后续层进行组合,形成一个混合分布,最终的控制信号由此导出

问题公式化

这段写的真挺好
在这里插入图片描述

输入表示和上下文编码

BERT作为场景编码器,处理一系列观测 O 1 : t O_{1:t} O1:t,得到类令牌和环境令牌的集合h

潜在特征的世界模型

潜在世界模型(LWM)旨在使用动作令牌和先前的潜在状态令牌(均由一个接受( A ˉ \bar{A} Aˉ和h的适配器生成)来预测下一个潜在状态令牌

适配器

动作令牌
潜在状态令牌
在这里插入图片描述

潜在世界模型

在这里插入图片描述

多概率规划器

将路标点视为动作空间,真实动作表示为 a ^ = [ a ^ x , a ^ y , a ^ y a w ] ∈ R 3 \hat{a} = [\hat{a}_x, \hat{a}_y, \hat{a}_{yaw}] \in \mathbb{R}^3 a^=[a^x,a^y,a^yaw]R3,其中yaw表示车辆的偏航角,用于描述车辆的行驶方向
在这里插入图片描述

MPA模块

在这里插入图片描述

损失函数

两个损失函数
一个是利用KL三度使得世界模型的适配器输出的潜在状态分布 ( s ^ i ) (\hat{s}_{i}) (s^i)与估计的潜在状态分布 ( s ‾ i ) (\overline{s}_{i}) (si)之间的 KL 散度,通过最小化这个散度,世界模型可以学习到更接近真实潜在状态的分布,提高预测的准确性。
在这里插入图片描述

另一个负对数似然损失来最大化自车真实动作 a ^ \hat{a} a^的可能性

在这里插入图片描述


http://www.ppmy.cn/embedded/173507.html

相关文章

正则表达式(复习)

文章目录 一、[]: 一个字符集合二、{}: 重复次数三、特殊符号四、(): 分组五、python代码示例六、注意 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个…

Visual Studio里的“公共语言运行时支持”各选项的作用是什么,分别适用于哪些场景?

文章目录 1. 无公共语言运行时支持(No CLR Support)2. 公共语言运行时支持(/clr)3. 纯MSIL公共语言运行时支持(/clr:pure,已弃用)4. 安全MSIL公共语言运行时支持(/clr:safe&#xff…

有线网络和WiFi无线网络的优先级设置

有线网络和WiFi无线网络的优先级设置 在日常使用电脑的过程中,许多用户可能会遇到有线网络和WiFi无线网络同时连接的情况。在这种情况下,系统通常会自动选择优先使用某一个网络连接,但有时我们希望调整网络优先级,以便根据自己的…

前缀和算法

前缀和算法 是一种通过预处理数组,快速计算任意区间和的技巧。它能在 O(1) 时间复杂度内回答区间和的查询,适用于需要频繁计算子数组/子区间和的问题。以下是其核心应用场景、实现方法及经典例题: 一、适用场景 频繁查询区间和 多次计算数组…

2000-2023年各地级市二氧化碳排放量数据/地级市CO2排放量

2000-2023年各地级市二氧化碳排放量数据/地级市CO2排放量 1、时间:2000-2023年 2、来源:EDGAR_2024_GHG of October 2024 3、指标:年份、省份、城市、城市代码、所属地域、CO2排放总量_吨 4、范围:300个地级市 5、指标解释&a…

【芯片验证】面试题·对深度为60的数组进行复杂约束的技巧

朋友发给我的芯片验证笔试题,觉得很有意思,和大家分享一下。 面试题目 class A中一个长度为60的随机数组rand int arr[60],如何写约束使得: 1.每个元素的值都在(0,100]之间,且互不相等; 2.最少有三个元素满足勾股数要求,比如数组中包含3,4,5三个点; 请以解约束最快…

嵌入式八股RTOS与Linux---前言篇

前言 Linux与RTOS是校招八股的时候很喜欢考察的知识,在这里并没有把两个操作系统完全的独立开去讲,放在一起对比或许可能加深印象。我们讲Linux的内核有五部分组成:进程调度、内存管理、文件系统、网络接口、进程间通信,所以我也将从这五方面出发 中断管理去对比和RTOS的不同。…

渗透测试工具之Koadic

1. Koadic 简介 Koadic 是一款专为 Windows 网络 设计的 渗透测试 和 内部漏洞测试 工具。开发者将其描述为一个 命令与控制(C2)后渗透(Post-Exploitation)Rootkit,它利用 Windows Script Host(WSH) 或 VBScript 模块 进行攻击。Koadic 兼容 Windows 2000 至 Windows 1…