arXiv-2024 | 当视觉语言导航遇见自动驾驶!doScenes:基于自然语言指令的人车交互自主导航驾驶数据集

ops/2024/12/23 15:41:02/

  • 作者:Parthib Roy, Srinivasa Perisetla, Shashank Shriram, Harsha Krishnaswamy, Aryan Keskar, Ross Greer

  • 单位:加州大学默塞德分校Mi实验室

  • 原文链接:doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation (https://arxiv.org/pdf/2412.05893)

  • 代码链接:https://www.github.com/rossgreer/doScenes

主要贡献

  • doScenes数据集专门设计用于研究人机指令交互,特别是短期直接影响车辆运动的指令。支持在真实世界场景中的细微和灵活响应,推动了安全有效的人车协作。

  • doScenes集通过自然语言指令和引用标签对多模态传感器数据进行标注,弥合了指令和驾驶响应之间的差距,实现了上下文感知和自适应规划。

  • doScenes强调与静态和动态场景对象相关的可执行指令,解决了现有研究中依赖于模拟数据或预定义动作集的局限性,帮助研究人员针对特定类型的对象进行模型训练或评估。

研究背景

研究问题

自动驾驶车辆必须有效整合人类指令以规划运动。本文聚焦于人车指令交互,尤其是影响车辆运动计划的短期直接指令。

通过分析人类与车辆交互的属性(如源位置、模态、参照性和时间性)来描述指令,并强调这些属性的组合多样性,例如:

  • 乘客可能指示停车点,

  • 消防员可能要求车辆移开,

  • 警察可能指挥交通流动。

论文专注于影响小于10秒的短期互动,并基于此建立doScenes数据集,结合传感器数据、车辆轨迹和地图信息,与人类交互指令和参照性标签配对,旨在促进自然语言指令与自动驾驶响应之间的研究。

研究难点

该问题的研究难点包括:

  • 现有数据集多集中于排序或场景级推理,缺乏对可操作指令的关注;

  • 依赖模拟数据或预定义动作集,无法应对现实世界中的复杂和动态场景。

研究现状

论文对自动驾驶车辆中人类指令交互相关的数据集和研究进展进行了调研:

  • NatSGD数据集通过语音和手势模拟人类沟通,旨在使机器人理解和执行现实世界任务。

  • BridgeData V2提供了多样化的轨迹数据,支持任务条件化。HandMeThat基准测试评估了指令理解与任务执行,但限于纯文本环境。

  • nuScenes是一个多模态自动驾驶数据集,包含360度视场传感器套件和夜间、雨天条件数据。

  • nuScenes-QA和nuScenes-MQA扩展了nuScenes的自然语言注释。

  • Rank2Tell数据集通过相关性和动态上下文对交通场景进行排序,但限于场景级理解。

  • doScenes通过提供与交通场景中重要对象相关的指令,弥补了多模态推理和实用指令之间的差距。

  • GPT-Driver框架利用GPT-3.5模型将运动规划转换为语言建模任务,提高了可解释性和泛化能力。

  • DriveMLM和LMDrive框架利用大型语言模型进行自主驾驶,但依赖于模拟数据。DriveGPT4整合视频输入和文本查询预测车辆控制信号,并提供自然语言解释。

  • DRAMA数据集通过自然语言描述风险,推动了情境感知。

本文提出的doScenes数据集则首次提供了实际世界数据集,建立了驾驶指令和自适应驾驶风格之间的联系,对于自动驾驶车辆在动态环境中的响应至关重要。

doScenes数据集

论文提出了doScenes数据集,用于解决人类指令与自主驾驶系统运动规划之间的集成问题。doScenes数据集通过对nuScenes数据集的每个12秒片段进行回溯注释,生成自然语言指令和指令参考性标签。

  • 追溯性注释方法:利用nuScenes数据集,通过回放片段并从乘客角度转录指令,模拟出租车司机的启发式方法生成自然语言指令。

  • 指令注释:每个nuScenes场景由五名独立注释者提供指令注释,可能包含多个注释以涵盖多种可能的指令。

  • 参考性标签:提供额外参考性标签来标注指令是否指向动态或静态对象,以指示指令是否需要对场景中对象的进一步观察。静态引用指令指向场景中的静态对象,动态引用指令指向场景中的动态对象。

  • 指令分布:在doScenes数据集中,静态引用指令有214个,动态引用指令有159个。大多数场景只有一个或两个指令注释。

分析与评估

  • doScenes提供的指令主要指示车辆移动方向,而非具体的驾驶方式,如速度或风格,这归因于其追溯性注释方法。

  • 鉴于nuScenes中12秒的场景可能超出单一指令的覆盖范围,准确响应可能仅在nuScenes路径的初期显现,随后因场景变化或多步运动计划的进展而变得不相关。

  • doScenes创建了静态和动态参照标签,以便在特定数据子集上训练和评估模型。例如,依赖栅格化地图的模型可能适用于非参照性指令,但在理解物体参照时可能需要额外的传感器输入。

  • doScenes旨在学习指令与车辆运动间的关联,为未来研究提供了基于自然语言生成轨迹或为车辆轨迹分配自然语言描述的可能性,推动了可解释、交互式自动驾驶运动规划的发展。

  • SpatialRGPT模型展示了如何从视觉-语言模型扩展到视觉-语言-动作模型,通过整合3D场景图和深度信息增强空间感知和推理能力,而doScenes的注释为探索这些模型提供了新的可能性,特别是在自动驾驶领域。

总结

doScenes数据集通过注释多模态传感器数据与自然语言指令和参考性标签,桥接了指令与驾驶响应之间的差距,支持上下文感知和自适应规划。

该数据集填补了现有研究的空白,特别是在可操作指令和实时性方面的不足,为开发和评估无缝集成人类指令的自动驾驶系统奠定了基础。


http://www.ppmy.cn/ops/144328.html

相关文章

127、SQLSERVE中union all 和union的使用场景

使用:在 SQL Server 中,UNION 和 UNION ALL 是用于合并两个或多个 SELECT 查询结果的操作符。两者区别union all 会去重,union 不会去重例子: 两张表:stu:stu_id,name emplyee:em_id,name 需求1:sql实…

设计模式-中介模式

背景(与外观模式相似) 智能家庭中包括各种设备:闹钟、咖啡机、电视机、窗帘。 主人要看电视时,执行以下操作:闹钟响起-》咖啡机做咖啡-》窗帘自动落下-》电视开始播放 传统思路: 闹钟类接收命令&#x…

八字精批API接口PHP实现返回json数据

引言 八字精批是根据个人的出生信息(包括姓名、性别、出生年、月、日和时)进行命理分析的重要工具。在中国传统文化中,八字命理被广泛应用于个人命运、性格分析以及未来发展的预测。本文将介绍一个八字精批的 API 接口,详细说明其…

leetcode之hot100---206环形链表(C++)

思路一:哈希表 遍历链表,同时借助哈希表判断当前遍历到的节点是否已经被访问过,如果当前节点已被访问过,则说明存在环 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* L…

WPF MVVM 数据表格DataGrid的表头Header无法进行数据绑定

话不多说&#xff0c;直接上案例代码&#xff0c;因为我也不知道为什么不能进行数据绑定。 DataGrid <DataGrid ColumnHeaderHeight"55"ItemsSource"{Binding BottomFormingMolds}" SelectedItem"{Binding SelectedItem3,ModeTwoWay}" …

在 .NET 5.0 运行 .NET 8.0 教程:使用 ASP.NET Core 创建 Web API

前言 因为我本机安装的是vs2019&#xff0c;所以我在使用vs创建项目的时候&#xff0c;只能选择.NET 5.0&#xff0c;而无法选择.NET 8.0 在网上有看到说用vs2019使用.net 8.0 &#xff0c;但是感觉不可靠&#xff0c;要用还是安装vs2022吧。 我因为不想要安装vs2022。 但是微…

半导体制造技术导论(第二版)萧宏 第十二章 化学机械研磨工艺

本章要求 1.列出化学机械研磨工艺的应用 化学机械研磨是一种移除工艺技术&#xff0c;结合化学反应和机械研磨去除沉积的薄膜&#xff0c;使表面更加平滑和平坦&#xff1b;也用于移除表面上大量的电介质薄膜&#xff0c;并在硅衬底上形成浅沟槽隔离STI&#xff1b;还可以从晶圆…

基于RocksDB编写一个简单的SQL数据库|得物技术

一、前言 数据库DBMS是当前互联网开发者最熟悉的基础设施之一&#xff0c;很多后端开发者的入门项目就是一个简单的基于MySQL的数据管理系统。笔者一直想自己编写一个简单的SQL数据库&#xff0c;正好最近正在学习RocksDB和Zig语言的内容&#xff0c;就想利用这个机会作为学习…