自动驾驶---E2E架构演进

embedded/2025/3/4 8:46:59/

1 背景

模型最早应用的自动驾驶模块就是感知层面,随着技术的发展,逐渐开始应用到决策规划等其它模块。端到端自动驾驶架构是一种基于深层神经网络模型和方法的自动驾驶技术模式。目前一段式端到端系统只有在英伟达早期所做的demo中实现,再者就是特斯拉(但特斯拉并没有官方说明是一段式端到端,笔者结合特斯拉的OTA推送说明推测端到端到轨迹层面)。

在目前的量产领域,考虑到系统稳定性和安全性,暂时很少有公司做到一段式端到端,大部分都集中在两段式,甚至三段式。

2 自动驾驶E2E演进

目前,端到端自动驾驶架构的演进可以分为四个主要阶段,分别是感知模型化,决策规划模型化,多模块化下的模型以及one model。

  • 感知“端到端”

这一阶段,整个自动驾驶架构被拆分成了感知和预测决策规划两个主要模块,其中,感知模块已经通过基于多传输器融合的 BEV 或者 OCC 技术实现了模块级别的“ 端到端”。通过引入transformer 以及跨传感器的cross attention 方案,感知输出检测结果的精度及稳定性相对之前的感知方案都有比较大的提升,不过,规划决策模块仍然以Rule-based 为主。

2dbfebfe8a9840c8b53339829bcf38a6.png

  • 决策规划模型化

这个阶段,整个自动驾驶架构被仍然分为感知和预测决策规划两个主要模块,其中,感知端仍保持上一代的解决方案,但预测决策规划模块的变动比较大—— 从预测到决策到规划的功能模块已经被集成到同一个神经网络当中。值得注意的是,虽然感知和预测规划决策都是通过深度学习实现,但是这两个主要模块之间的接口仍然基于人类的理解定义(如障碍物位置,道路边界等);另外,在这一阶段,各模块仍然会进行独立训练。

相比于第一阶段Rule-based 的决策方案,第二阶段的决策规划模块化很大程度地提升了决策规划应对复杂外界状况的上限。一方面,基于模型的方案能够最大程度地利用数据提升最终效果;另一方面,当现行模型大小不足以应对当前场景的复杂度时,扩大决策规划模型并重新进行训练在工程实现上也要比持续更新和维护规则库或状态空间模型容易很多。在各功能模块都完成了“ 神经网络模型化” 后,接下来的技术发展方向更多地体现在如何通过改进各功能模块间的互联方式获得更好的效果。而以这个标准来看,第二阶段的方案仍然存在着固有缺陷。一方面,为了进行每个模块的独立训练和验证,接口的设计需统一抽象为人类的理解形式,这种方案在带来训练方便及验证便利性的同时,会不可避免地以信息的损失为代价;另一方面,由于各模块之间无法进行全量有效的梯度传导——对每个模型的训练和优化更多地局限在模块内部,因而,在系统层面看,这更多是一种局部优化而非全局优化的方案。

该阶段可参考笔者之前写的文章《自动驾驶—行泊一体(车位到车位功能)量产》,主要介绍了华为ADS3.0中的方案架构

ac251fdfa343484fbda280e40f3905ae.png

  • 模块化端到端

从结构上来讲,这一阶段的结构和上一阶段比较类似,但是在网络结构的细节及训练方案上有很大不同。首先,感知模块不再输出基于人类理解定义的结果,而更多给出的是特征向量。

相应地,预测决策规划模块的综合模型基于特征向量输出运动规划的结果。除了两个模块之间的输出从基于人类可理解的抽象输出变为特征向量,在训练方式上,这个阶段的模型必须支持跨模块的梯度传导—— 两个模块均无法独立进行训练,训练必须通过梯度传导的方式同时进行。

第三阶段的模块化端到端则通过避免对接口信号的过度抽象保证了信息的完整性,而跨模块的梯度传导也保证了对端到端模型的所有训练都有助于最终达到全局优化的效果。但该过程仍然有信息之间的相互传递,也不可避免的存在信息损失。

典型的架构就是UniAD提出的多模块模型架构,其中的感知、地图、决策规划都是模型输出,如下图所示。

3a5472849df1427bac99c6b311979833.png

还有理想和清华大学共同研究的自动驾驶双系统模型(多模块端到端+VLM) ,笔者也把该方案归到了这一类中,关于理想汽车智能驾驶双系统的详细内容可以参考笔者之前的博客《自动驾驶—各大车企的端到端之旅》和《自动驾驶—理想汽车智驾进展》。

  • One Model/ 单一模型端到端

虽然One Model 属于第四阶段的方案,但是这个概念被提出的时间比模块化端到端更早。在自动驾驶产业刚刚开始起步的 2016 年,英伟达在论文《End to End Learning for Self-Driving Cars》中就提出采用单个神经网络(卷积 + 全连的简单架构)来实现端到端的自动驾驶,输入和输出就是最原始的传感器信号、方向盘角度及油门开度。但由于结构设计过于简单,模型的规模也过小,这种方案仅能支持高速或者简单道路状况下的自动驾驶,且仅仅完成了小规模的 demo 验证,与量产需要的可靠性差距较大。

a8900fcc1e50923fdf9a348e453e45ca.png

然而,随着 Transformer 网络架构和车端算力(逐步可支持0.1B~1B 级参数量网络运行)的提升,One Model 的端到端方案又重新回到人们的视野中,甚至很可能成为端到端的终局解决方案。相比于模块化方案,One Model 端到端方案虽然在训练以及调试上更为复杂,但在理论上,其最终效果具有更高的天花板。主要原因是,无论是采用基于RL/IL 的学习类架构,还是采用以世界模型作为基底的衍生架构,为了保证能够拥有对世界更全面的理解,One Model 端到端方案的训练过程能够涵盖更广范围的数据,这就使得对真实世界的所有知识和认知都可以完整地应用于自动驾驶,因而模型可以实现更好的泛化效果。

在这一阶段,就不再有感知、决策规划等功能的明确划分。基于实现方案的不同,这一阶段的One Model 可以是基于强化学习(Reinforcement Learning, RL)或模仿学习(Imitation Learning, IL)的端到端模型,也可以通过世界模型这类生成式模型衍生而来。

目前大部分车企(包括特斯拉,华为,理想,小鹏)集中精力在做 one model,当然也包括one model的优化,但 one model模型的输出为轨迹,还并没有到控制层面。

此外,这类架构对于环境以及和其他物体交互的理解具有很强通用性,因此,它就不单单为自动驾驶,也为如机器人等其他领域的应用打好了基础,从而最终实现跨领域模型的统一。

3 总结

端到端自动驾驶通过统一的模型直接从传感器输入映射到驾驶动作,简化了传统模块化系统的复杂性,但目前还没有完全实现。

随着深度学习、多模态融合和强化学习等技术的发展,端到端自动驾驶研究在近几年取得了显著进展。未来,通过结合大规模预训练、模型发展和仿真技术,端到端自动驾驶有望实现更高的安全性、鲁棒性和泛化能力。


http://www.ppmy.cn/embedded/169866.html

相关文章

《Qt窗口动画实战:Qt实现呼吸灯效果》

Qt窗口动画实战:Qt实现呼吸灯效果 在嵌入式设备或桌面应用中,呼吸灯效果是一种常见且优雅的UI动画,常用于指示系统状态或吸引用户注意。本文将介绍如何使用Qt动画框架实现平滑的呼吸灯效果。 一、实现原理 利用Qt自带的动画框架来实现&…

开篇词 | Go 项目开发极速入门课介绍

欢迎加入我的训练营:云原生 AI 实战营,一个助力 Go 开发者在 AI 时代建立技术竞争力的实战营。实战营中包含大量 Go、云原生、AI Infra 相关的优质实战课程和项目。欢迎关注我的公众号:令飞编程,持续分享 Go、云原生、AI Infra 技…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-2.1.2字段类型选择:keyword vs text、nested对象

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 第2章 数据建模与高效写入:ES字段类型选择最佳实践:keyword vs text与nested对象深度解析1. 索引设计核心原则2. keyword与text类型终极对决2.1 核心…

Linux ls 命令

Linux ls(英文全拼: list directory contents)命令用于显示指定工作目录下之内容(列出目前工作目录所含的文件及子目录)。 语法 ls [-alrtAFR] [name...] 参数 : -a 显示所有文件及目录 (. 开头的隐藏文件也会列出)-d 只列出目…

RabbitMQ系列(四)基本概念之Exchange

在 RabbitMQ 中,Exchange(交换机) 是消息路由的核心组件,负责根据规则将生产者发送的消息分发到对应的队列(Queue)中。以下是其核心功能与分类的详细说明: 一、Exchange 的核心作用 消息路由枢…

计算机毕业设计SpringBoot+Vue.js线上辅导班系统(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

【Redis】持久化

Redis是一个「内存数据库」,把数据存储在内存中 //把数据存储在硬盘上是持久的,存储在内存上是不持久的 因此Redis的数据是不持久的 所以Redis相比于MySQL这样的关系型数据库,最明显的优势是「效率快」 插入一个新数据时,Redi…

WP 高级摘要插件:助力 WordPress 文章摘要精准自定义显示

wordpress插件介绍 “WP高级摘要插件”功能丰富,它允许用户在WordPress后台自定义文章摘要。 可设置摘要长度,灵活调整展示字数;设定摘要最后的显示字符, 如常用的省略号等以提示内容未完整展示;指定允许在摘要中显示…