自动驾驶世界模型系列 - 2 | Delphi

news/2024/10/5 22:50:58/

0. 资源链接

  • 论文: Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation

  • 项目: https://westlake-autolab.github.io/delphi.github.io

1. 背景动机

  • 端到端自动驾驶技术是当前的主流,对训练数据的规模和质量有更高的要求

  • 危险、特殊场景的数据采集成本/风险过高,因而难以获得丰富的数据用以训练

  • 当前的视频生成模型不能很好地实现时空连续性保持和精确控制,而且生成的是频段一般在 8 帧以下

2. 内容提要

  • 提出 Delphi 视频生成方法,可生成 12秒(40帧)时间连续的多视角视频,是之前主流方法的 5 倍,而且具有控制目标和场景两个维度的能力

  • 提出失败样例驱动的框架,实验证明基于失败样例生成的长视频段(规模仅为训练集的4%)能够将 UniAD 的精度提升 25%

3. 技术细节

之前的方法通常没有考虑时间和空间上的噪声设计,因而导致生成的长视频质量不如人意。本文针对这个问题提出两个关键模块:噪声重初始化和特征对齐的时间连贯模块。

3.1 噪声重初始化模块 (Noise Reinitialization Module)

多视图视频在时间和视图维度上具有相似性。然而现有的两类方法没有同时在时空上很好解决该问题:1)并发单视图视频生成方法,不能直接应用于室外多视图场景;2)多视图生成模型添加的独立噪声,没考虑跨视图一致性。本文通过引入了沿时间维度的共享运动噪声 m 和沿视点维度的共享全景噪声 p 来解决这个问题。

3.2 特征对齐的时间连贯模块 (Feature-aligned Temporal Consistency)

现有的方法在生成当前帧时,只利用简单的交叉注意力机制将先前的帧信息融合到当前视图中,但实际上位于不同网络深度的特征具有不同的感受野。因此,这种粗粒度的特征交互方法无法捕获来自前一帧不同级别的感受野的所有信息,导致视频生成效果受限。为在相邻帧中相同网络深度的对齐特征之间完全建立特征交互,本文设计场景感知注意力和实例感知注意力两种设计,以确保全局一致性和优化局部一致性。

场景感知注意力 (Scene-aware Attention) 对相邻帧之间相同网络深度的特征进行注意力计算

实例感知注意力 (Instance-aware Attention) 使用前景边界框作为注意力掩码来计算中的特征交互相邻帧之间的局部区域

3.3 失败样例驱动的框架

该框架利用四个步骤来减少计算成本:收集失败样例、分析归类、检索相似样例、更新模型。

3.4 实验结果

4. 一些思考

  • 自动驾驶场景的视频生成相对于一般的视频生成,除了时间连续性之外,增加了一个多视图一致性的要求,本文相较于之前的方法,这个 motivation 还是很合理的

  • 尽管本文方法把生成长度推进到 40 帧,但其实相比大众预期的视频生成长度还是有差距

  • 论文展示了部分简单的 scene、layout 编辑的结果,但是对于背景、目标等更精细化的编辑和控制有待进一步研究


http://www.ppmy.cn/news/1473476.html

相关文章

【Unity URP】通过代码动态添加URP渲染通道RendererFeature

URP的渲染通道RendererFeature可以很方便的实现一些渲染问题,比如渲染顺序问题,遮挡后的材质替换等等。 那么我们如何通过代码来动态添加和修改呢? 首先我们需要获取到当前的URP配置文件,在对配置文件进行添加 1.通过反射获取当前UniversalRendererData 我们通过Graphic…

add_metrology_object_generic 添加测量模型对象。找两条直线,并计算两条线的夹角和两个线的总长度,转换成毫米单位

*添加测量模型对象 *将测量对象添加到测量模型中 *算子参数: *    MeasureHandle:输入测量模型的句柄; *    Shape:输入要测量对象的类型;默认值:‘circle’,参考值:‘circl…

[图解]企业应用架构模式2024新译本讲解22-标识映射

1 00:00:01,080 --> 00:00:04,710 我们来看一下标识映射这个模式 2 00:00:08,030 --> 00:00:10,110 它是属于对象-关系 3 00:00:10,120 --> 00:00:11,150 行为模式 4 00:00:11,160 --> 00:00:13,890 就是说,在动态的时候 5 00:00:15,770 --> 00:…

数据结构 —— 最小生成树

数据结构 —— 最小生成树 什么是最小生成树Kruskal算法Prim算法 今天我们来看一下最小生成树: 我们之前学习的遍历算法并没有考虑权值,仅仅就是遍历结点: 今天的最小生成树要满足几个条件: 考虑权值所有结点联通权值之和最小无环…

使用echarts绘制中国地图根据不同的省份划分到指定区域里面中

需求:我们在开发过程中会遇到使用中国地图来划分不同区域省份下面的数量统计情况,但是有时候使用Echarts里面地图功能和我们实际业务需求不匹配的,这个时候就需要我们手动自定义进行划分不同区域下面的省份数据。例如大区1下面有哪些省份&…

生产力工具|viso常用常见科学素材包

一、科学插图素材网站 一图胜千言,想要使自己的论文或重要汇报更加引人入胜?不妨考虑利用各类示意图和科学插图来辅助研究工作。特别是对于新手或者繁忙的科研人员而言,利用免费的在线科学插图素材库,能够极大地节省时间和精力。 …

SpringBoot中整合ONLYOFFICE在线编辑

SpringBoot整合OnlyOffice SpringBoot整合OnlyOffice实现在线编辑1. 搭建私有的OnlyOffice的服务2. SpringBoot进行交互2.1 环境2.2 我们的流程2.3 接口规划2.3.1 获取编辑器配置的接口2.3.2 文件下载地址2.3.3 文件下载地址 3. 总结4. 注意4.1 你的项目的地址一定一定要和only…

【国产开源可视化引擎Meta2d.js】钢笔

钢笔 钢笔是和其他众多绘图工具(Photoshop、Sketch、Illustrator)中一致的钢笔工具,能够很方便的在线绘制各种小图标 在线体验: 乐吾乐2D可视化 示例: // 开始绘画:curve。除了curve,还有poly…