51c自动驾驶~合集48

embedded/2025/1/21 17:12:19/

我自己的原文哦~     https://blog.51cto.com/whaosoft/13133866

#UDMC

考虑轨迹预测的统一决策控制框架

论文:https://arxiv.org/pdf/2501.02530

代码:​​https://github.com/henryhcliu/udmc_carla.git​​

1. 摘要

当前的自动驾驶系统常常在确保安全和遵守交通规则的同时,难以平衡决策制定和运动控制,特别是在复杂的城市环境中。现有方法由于分别处理这些功能,可能导致效率低下和安全妥协。为应对这些挑战,我们引入了UDMC,这是一个可解释且统一的4级自动驾驶框架。UDMC将决策制定和运动控制整合为一个单一的最优控制问题(OCP),考虑了与周围车辆、行人、车道和交通信号的动态交互。通过采用创新的势能函数来模拟交通参与者和规定,并结合专门的运动预测模块,我们的框架增强了道路安全性和规则遵守性。集成设计允许实时执行适合各种驾驶场景的灵活操作。在CARLA中进行的高保真模拟展示了该框架的计算效率、鲁棒性和安全性,与各种基线模型相比,驾驶性能更优。

2 创新点

本工作提出一个名为UDMC的全面框架,它整合了通过APF进行的交通对象特征提取,以及通过IGPR对交通参与者进行的运动预测。碰撞避免和遵守交通规则被制定为OCP中的软约束,配有精心设计的PFs。我们的方法同时实现了高层决策和低层控制,从而为城市驾驶提供了一个计算效率高的流程。我们将在四个具有挑战性的城市驾驶场景中,将所提出的方法与基于规则的方法以及名为InterFuser的学习型方法进行比较。同时,也进行了一系列的消融模拟和基准评估。结果清楚地展示了UDMC所获得的驾驶行为的有效性、鲁棒性和安全性,同时也实现了高成功率和稳定的通勤时间表现。由于我们的工作提供了一个通用的自动驾驶框架,这个框架中的不同模块可以根据特定的驾驶应用进行适当修改,这得益于该框架的兼容性和通用性。作为我们未来工作的一部分,UDMC可以在没有大量适配工作的前提下,部署在配置较低的工业计算机设备上。

3.UDMC框架概述

3.1 框架结构

UDMC(Unified Decision-Making and Control Framework for Urban Autonomous Driving with Motion Prediction of Traffic Participants)框架是一个针对城市自动驾驶的决策与控制一体化框架。它将决策制定和运动控制整合到一个单一的最优控制问题(OCP)中,考虑了与周围车辆、行人、道路车道和交通信号的动态交互。通过使用创新的势函数来模拟交通参与者和规则,并结合专门的运动预测模块,该框架增强了道路安全性和规则遵守性。这种集成设计允许实时执行适合不同驾驶场景的灵活操作。在CARLA高保真度模拟中,UDMC框架展示了其计算效率、鲁棒性和安全性,与各种基线模型相比,驾驶性能更为出色。

3.2 关键技术与方法

UDMC框架的关键技术与方法包括以下几个方面:

势函数(Potential Functions)

UDMC框架采用了创新的势函数来模拟交通参与者和交通规则。这些势函数能够将交通环境中的各种因素,如车辆、行人、车道标记和交通信号等,转化为对自动驾驶车辆的控制约束。例如,车辆势函数可以模拟周围车辆的位置和速度,从而帮助自动驾驶车辆保持安全距离;交通信号势函数则可以根据交通信号的状态调整车辆的速度和行驶方向。通过将这些势函数整合到最优控制问题中,UDMC框架能够实时生成适合不同驾驶场景的灵活操作。

运动预测模块(Motion Prediction Module)

UDMC框架结合了基于插值的高斯过程回归(IGPR)的运动预测模块,用于快速可靠地预测周围车辆和行人的运动。IGPR是一种非参数贝叶斯学习方法,能够根据历史状态记录预测未来的状态。在UDMC框架中,IGPR模块利用周围车辆和行人的历史轨迹数据,预测其在未来一段时间内的运动趋势。这些预测结果为自动驾驶车辆的决策提供了重要的参考,使其能够提前做出合理的决策,如变道、减速或避让等。

最优控制问题(Optimal Control Problem, OCP)

UDMC框架将决策制定和运动控制整合到一个最优控制问题中。该问题考虑了自动驾驶车辆的动力学模型、环境约束和目标函数,通过求解最优控制序列来实现车辆的自主驾驶。在OCP中,目标函数通常包括行驶时间最小化、能耗最小化和乘坐舒适性最大化等。同时,环境约束包括道路边界、车道标记、交通信号和周围车辆等因素。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。

高保真度模拟测试(High-Fidelity Simulation Tests)

为了验证UDMC框架的性能,研究者在CARLA模拟器中进行了大量的高保真度模拟测试。CARLA是一个开源的城市驾驶模拟器,能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中,UDMC框架展示了其在不同驾驶场景下的计算效率、鲁棒性和安全性。与各种基线模型相比,UDMC框架在车流跟随、超车、环岛和交叉路口等场景中均表现出更优越的驾驶性能。这些测试结果证明了UDMC框架在实际应用中的可行性和有效性,为自动驾驶技术的发展提供了有力的支持。

4. UDMC框架的关键技术详解

4.1 交通参与者运动预测

交通参与者运动预测是UDMC框架中至关重要的环节,它直接影响自动驾驶车辆的决策和控制。UDMC框架采用基于插值的高斯过程回归(IGPR)来实现这一功能。IGPR作为一种非参数贝叶斯学习方法,能够根据有限的历史轨迹数据,预测交通参与者未来的运动状态。具体来说,IGPR通过构建一个高斯过程模型,将历史轨迹数据作为输入,输出预测的未来位置和速度。这种方法的优势在于,它不仅能够提供预测结果,还能给出预测结果的不确定性估计,这对于自动驾驶车辆在复杂交通环境中的决策至关重要。例如,在面对前方车辆突然减速的情况时,IGPR能够提前预测这一变化,并为自动驾驶车辆提供足够的时间来做出安全的反应,如减速或变道。

4.2 人工势场法的应用

人工势场法(APF)在UDMC框架中用于模拟交通参与者和交通规则对自动驾驶车辆的影响。通过定义不同的势函数,如车辆势函数、行人势函数、车道势函数和交通信号势函数,UDMC框架能够将复杂的交通环境转化为对车辆控制的约束。这些势函数通过计算自动驾驶车辆与周围环境之间的相互作用力,引导车辆做出合理的决策。例如,车辆势函数可以根据周围车辆的位置和速度,计算出一个排斥力,使自动驾驶车辆保持安全距离;而车道势函数则可以引导车辆沿着车道中心线行驶,避免偏离车道。这种基于势场的方法不仅简化了决策过程,还提高了系统的实时性和适应性。在实际应用中,UDMC框架通过调整势函数的参数,能够灵活应对不同的交通场景和规则变化,如在不同的国家和地区,交通规则可能有所不同,通过调整势函数参数,UDMC框架可以快速适应这些变化,确保自动驾驶车辆的合规行驶。

4.3 最优控制问题的构建与求解

UDMC框架将决策制定和运动控制整合到一个最优控制问题(OCP)中,这是实现自动驾驶的关键步骤。OCP的构建涉及到多个方面,包括自动驾驶车辆的动力学模型、环境约束和目标函数。动力学模型描述了车辆的运动特性,如速度、加速度和转向角等;环境约束包括道路边界、车道标记、交通信号和周围车辆等因素,这些约束确保车辆在安全的范围内行驶;目标函数则反映了自动驾驶的目标,如行驶时间最小化、能耗最小化和乘坐舒适性最大化等。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。在求解OCP时,UDMC框架采用了高效的数值优化算法,如梯度下降法和序列二次规划法等,这些算法能够在短时间内找到最优解或近似最优解,满足自动驾驶实时性的要求。此外,UDMC框架还考虑了OCP的可行性和稳定性,通过引入惩罚项和松弛变量,处理可能出现的约束冲突和数值不稳定问题,确保系统的鲁棒性和可靠性。在实际测试中,UDMC框架在不同的城市交通场景下均表现出良好的性能,如在车流密集的路段能够实现平稳的车流跟随,在交叉路口能够准确地遵守交通信号并安全通过,这充分证明了UDMC框架在最优控制问题构建与求解方面的有效性和实用性。

5. UDMC框架的性能评估

5.1 仿真环境与测试场景

UDMC框架的性能评估主要在CARLA模拟器中进行,CARLA是一个开源的城市驾驶模拟器,能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中,UDMC框架面临多种复杂的交通场景,包括但不限于:

  • 车流跟随:在多车道的公路上,自动驾驶车辆需要跟随前方车辆,同时保持安全距离,并根据车流的速度变化进行加速或减速。
  • 超车操作:在合适的道路条件下,自动驾驶车辆需要判断何时进行超车操作,同时确保不会对周围车辆造成危险。
  • 环岛驾驶:环岛交通场景中,车辆需要识别环岛内的交通规则,如让行标志,同时处理与其他车辆和行人的交互。
  • 交叉路口:在有信号灯和无信号灯的交叉路口,自动驾驶车辆需要准确识别交通信号,遵守交通规则,并与其他交通参与者进行有效的交互,以安全通过交叉路口。
  • T型路口:在T型路口,车辆需要根据交通标志和道路情况,决定是直行、左转还是右转,并在必要时进行停车和让行。

这些测试场景涵盖了城市自动驾驶中常见的各种情况,能够全面评估UDMC框架在不同环境下的性能表现。

5.2 性能指标与结果分析

为了评估UDMC框架的性能,研究者定义了一系列关键的性能指标,包括但不限于:

  • 安全性指标:包括碰撞次数、安全距离保持情况等。在所有测试场景中,UDMC框架展现出极高的安全性,碰撞次数几乎为零,且始终能够保持与周围车辆和行人的安全距离。
  • 规则遵守性指标:衡量车辆遵守交通规则的程度,如红绿灯遵守率、车道保持准确性等。UDMC框架在这一指标上表现优异,红绿灯遵守率达到100%,车道保持准确性高达98%以上。
  • 驾驶效率指标:包括平均行驶速度、行程时间等。UDMC框架在保证安全和规则遵守的前提下,实现了较高的驾驶效率,平均行驶速度比基线模型提高了15%,行程时间缩短了20%。
  • 计算效率指标:评估框架的计算资源消耗,如CPU使用率、内存占用等。UDMC框架在实时执行中表现出良好的计算效率,CPU使用率控制在合理范围内,内存占用稳定,能够满足实时决策和控制的要求。
  • 鲁棒性指标:测试框架在面对传感器噪声、环境变化等不确定因素时的稳定性。UDMC框架在引入不同程度的传感器噪声和环境干扰后,依然能够稳定运行,鲁棒性得到了充分验证。

通过对这些性能指标的综合分析,UDMC框架在CARLA模拟器中的表现优于多种基线模型,证明了其在城市自动驾驶中的有效性和可行性。这些结果不仅展示了UDMC框架的技术优势,也为未来自动驾驶技术的进一步发展和实际应用提供了有力的支持。

6. UDMC框架的局限性与挑战

6.1 当前存在的问题

尽管UDMC框架在城市自动驾驶领域取得了显著的成果,但仍存在一些局限性。首先,该框架在处理极端天气条件下的传感器数据时可能会遇到挑战。例如,在暴雨或大雪天气中,传感器的精度可能会降低,从而影响对周围环境的准确感知。其次,UDMC框架在面对突发的、非典型的交通事件时,如道路施工或交通事故导致的临时交通管制,可能需要更复杂的决策逻辑来适应这些变化。此外,虽然UDMC框架在模拟环境中表现出色,但在实际道路测试中,还需要进一步验证其在不同地区和不同交通规则下的适应性。最后,系统的计算资源消耗在处理大规模交通场景时可能会增加,这需要更高效的算法来优化资源分配。

6.2 未来研究方向

针对UDMC框架的局限性,未来的研究可以从以下几个方向展开。首先,研究如何提高传感器在恶劣天气条件下的可靠性和准确性,例如通过开发新型传感器融合技术或改进传感器校准算法。其次,开发更灵活的决策模块,使其能够快速适应突发的交通事件和临时的交通规则变化。此外,进一步优化算法以减少计算资源的消耗,特别是在处理复杂的城市交通场景时,确保系统的实时性和高效性。最后,加强UDMC框架在实际道路环境中的测试和验证,收集更多的实际数据,以改进模型的鲁棒性和适应性。通过这些研究方向的探索,UDMC框架有望在未来实现更广泛的应用和更高的性能表现。

7. 总结

UDMC框架作为城市自动驾驶领域的一项创新性研究成果,通过将决策制定和运动控制整合到一个统一的最优控制问题中,有效地解决了传统自动驾驶系统在复杂城市交通环境中面临的诸多挑战。该框架利用势函数模拟交通参与者和规则,结合运动预测模块,实现了对周围环境的准确感知和预测,从而为自动驾驶车辆提供了安全、高效且符合交通规则的行驶策略。在CARLA模拟器中的高保真度测试进一步验证了UDMC框架的优越性能,其在安全性、规则遵守性、驾驶效率、计算效率和鲁棒性等关键指标上均表现出色,为自动驾驶技术的未来发展提供了有力的技术支持和理论依据。尽管存在一些局限性,如在极端天气条件下的传感器数据处理、面对突发交通事件的决策适应性以及实际道路测试中的地区适应性等,但通过未来的研究和优化,UDMC框架有望克服这些挑战,推动自动驾驶技术在城市环境中的广泛应用,实现更加智能化、安全化的交通出行。

#Uber端到端:端到端可解释神经运动规划器

Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., & Urtasun, R. (2019). End-To-End Interpretable Neural Motion Planner.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA. https://doi.org/10.1109/cvpr.2019.00886.

本文采用了轨迹采样+cost map prediction的方式实现learning based planning方案。

网络的输入是lidar cloud point and hp map, 然后通过cnn卷成feature最后接MLP进行预测。预测有两个部分,可以理解成感知任务和规划任务。其中感知任务包括了3D detection and future motion forcasting. 规划的任务则是预测稠密的cost volumes. 此外这个输入的特征空间还带有时序的信息,通过融合多帧的感知信息,然后进行cat组成了存储时序信息的features。规划任务是预测稠密的cost volume, 不过文章提到预测这个东西主要靠的是gt轨迹, 我们希望预测到gt附近区域是cost比较低的,但是这个奖励太稀疏了,所以单纯的利用gt信息学习是很困难的,所以额外的通过两个感知任务帮忙调整感知backbone输入,这样也可以提升planning的学习效果,原文的表达如下:“we introduce an another perception loss that encourages the intermediate representations to produce accurate 3D detections and motion forecasting. This ensures the interpretability of the intermediate representations and enables much faster learning。”

此外 HDmap上存储了各种道路环境的语义信息:“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs.”这些道路,十字路口,车道线以及红绿灯等静态道路元素也被提取出来作为cost map中的静态元素,这些东西被铺进多个图层,也生成了M个通道,最后和lidar point cloud上提取出来的T个时间维度的信息组合在一起给到后面的planning使用。

有了这个cost map, 下面通过螺旋曲线的采样生成planning anchor, 将这些anchors铺到cost map上面找cost最低的轨迹。

文章号称有以下三个优势:

  1. 具备可解释性和多模态能力,从后面的数据来看,可解释性来自cost map的高低,能够有效可视化出来碰撞或者违背道路交通规则的区域。此外额外的两个感知任务3d detection and motion forcasting也能提供中间信息的可视化做到一定的可解释性。
  2. 能够进行联合训练,避免了信息损失。
  3. 能够处理不确定性,从后面看不确定性的处理也是在cost map上体现出来的,cost map上出现了非凸的low cost区域用于表达多种驾驶可能性。不过这个证明有点弱,仅仅是出一张有多模态决策的图还是远远不够的,本文还是缺乏充足的理论和实验论证这里的网络设计是可以保证多模态的。

objective

planning模块的目标是将采样获得trajectory铺进cost volume中,从中找到cost最低的轨迹作为最佳轨迹:

图片

而轨迹的costing方式则是则是通过从cost map中索引voxel-wise的cost进行计算的。感知的输入是H,W,Z维度的lidar cloud points, 同时为了考虑时序上的动态agents的信息,雷达点云信息还要融合多帧的时序结果,在Z维度叠起来,H,W,ZT. 另一方面,Wiley考虑道路环境元素,本文给各个道路元素都准备了一层通道,包括road, intersections, lanes, lane boudaries, and traffic lights. 原文表达是“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs. Similar to [5], we rasterize the map to form an M channels tensor, where each channel represents a different map element, including road, intersections, lanes, lane boundaries, traffic lights, etc.”所以维度变成H,W,(ZT+M).

感知backbone是个CNN,作为下面两个头的输入,其中感知头预测bounding box and motion forcasting. cost volume头预测cost volume, 这里主要看下cost volume的预测。这里采用了max margin loss, gt是人驾轨迹。loss希望区分人驾轨迹的区域和其他区域,人驾轨迹的地方就是cost低的地方:“The intuition behind is to encourage the ground-truth trajectory to have the minimal cost, and others to have higher costs.”

图片

c表示cost, d表示轨迹距离,gamma表示traffic rule violation.

在负样本采样中,需要采样大量的偏移人驾轨迹的曲线,这里除了用planning anchor采样逻辑外,还对起点状态做了一个轻微扰动:“except there is 0.8 probability that the negative sample doesn't obey SDV's initial states, e.g. we randomly sample a velocity to replace SDV's initial velocity.”​

planinng anchor

横向采用螺旋曲线进行采样:

图片

纵向则是采用了constant accleration直接采样加速度,非常粗糙。

文章还提到了一点,“Note that Clothoid curves cannot handle circle and straight line trajectories well, thus we sample them separately. ”这个螺旋曲线不能表达直线和圆形,所以直行和掉头要出问题,所以额外单独采样,他们的采样比例是:“The probability of using straightline, circle and Clothoid curves are 0.5, 0.25, 0.25 respectively.”​

experiment

实验关注L2 distance, collision rate, and lane violation rate这几个指标,然后做了几个对比实验:

  • Ego-motion forecasting (Ego-motion),仅用ego motion 作为输入
  • Imitation Learning (IL):imitation is all you need, 用纯粹imitation学习
  • Adaptive Cruise Control (ACC):没有细说怎么处理,不过从后面的实验结果分析上来看,应该是加了lane violation的loss
  • Plan w/ Manual Cost (Manual): 人工设计cost

对比结果如下:

结论就是:“Egomotion and IL baselines give lower L2 numbers as they optimize directly for this metric, however they are not good from planning perspective as they have difficulty reasoning about other actors and collide frequently with them.”

然后对比其他几个方面的对比结果。包括联合训练(所谓联合就是是不是要感知任务和规划任务一起训),输入的时序融合长度,是否确实gamma penalty等等:

#从10到100的地平线

近期,智驾行业频繁出现中高阶的大项目定点。

据悉,某头部主机厂的一个中高阶大项目定点被地平线生态所斩获,这个大项目定点的车型数量达到了十个左右。

大项目频繁出现的原因是主机厂都在筹备智驾普及大战。众所周知,主机厂从卷电动调转枪口卷智驾。一位主机厂朋友表示,大家都在积极备战,25年将会是传统主机厂卷智驾最热闹的一年。

1. 智驾普及大战

众所周知,智驾行业是一年一个变化,25年最大的看点大概是两条线。

一条线是中高阶智驾的下沉普及;另外一条线是端到端2.0落地的竞争,也就是VLA量产上车。

引发智驾下沉普及的鲇鱼是比亚迪,比亚迪发起了声势浩大的智驾普及大战。比亚迪的动作凶猛,近乎全系车型要上中阶或高阶的智驾方案,10W出头的车型上都要上带高速NOA、记忆行车的中阶方案。

一位头部主机厂的人士表示,比亚迪国内销量第一,在C端用户影响力大,也是众多国内主机厂对标的对象。比亚迪卷智驾,那么几乎所有的主机厂都要跟进。

这意味着智驾正式从技术探索阶段过度到了智驾普及阶段。

在这场声势浩大的智驾普及战中,传统主机厂将不再是像过去几年一样在零星的个别车型上搭载中阶或高阶智驾、采用高定价的选配策略,而是近乎全系车型甚至会采取激进的标配策略。

这就使得许多主机厂产生了一个“烦恼”:面临几十款车型如何量产智驾的问题。

在以前,传统主机厂都是对旗下的个别车型上搭载中阶或高阶的智驾方案,量产的车型并不多。而现在是近乎价位10W以上的车型都要上中高阶的方案,对于一些拥有几十上百款车型的传统主机厂来说,如何做好智驾的量产是个大问题。

一些传统主机厂已经开始调整思路,比如,某头部车企将一个车型平台交给一家地平线生态合作伙伴来做。

在过去,传统主机厂喜欢分散式的选择供应商,一个车型平台会交给几个供应商来做。现在则是由之前分散式的选择智驾供应商的方式,转变为打包整个车型平台交给一个或两个智驾供应商来做。

这样做的目的除了能够降本卷智驾之外,另外很重要的原因是能在量产中以及后续的OTA能够很好的一致性管理。

当国内主机厂调整枪口卷智驾,意味着几百个车型的量产需求。这么庞大的一个量产需求,需要一个强大的生态系统才能接得住。

图片

(征程6系列定点超100款中高阶智驾车型)

目前,国内能接住的凤毛麟角,地平线或许是最有潜力的那个。

第一,地平线生态的合作伙伴群体规模庞大,从软件算法到硬件的域控、传感器,应有尽有;第二,地平线以及生态伙伴的产品线覆盖全场景,无论低阶、中阶还是高阶的需求。

所以,在传统主机厂的智驾普及战略中,地平线成了绕不开的选择。而且,基于地平线的J6一代芯片做的智驾方案,在性能和成本上非常均衡,契合了传统主机厂对智驾普及的战略需求。

这也是为什么24年地平线的“朋友圈”和定点疯狂增长的原因,不仅是传统主机厂,新势力在智驾普及战略上也是做出了一样的选择。

新势力车型产品从中高端向中端以下市场下沉,在残酷的汽车价格战背景下,在智驾上不再追求 “自产自销”,开始采取务实灵活的策略——“谁适合就用谁”。理想和蔚来都选择了地平线来做智驾普及。

一位业界朋友表示,25年的出货量要爆,这波智驾普及的趋势,地平线是大赢家,斩获的中阶定点项目最多。

2. 智驾的技术拐点

VLA被业界视为将高阶智驾的技术从“可用”推进到“好用”的重要拐点。

VLA大致可以划分为1.0、2.0、3.0的三个阶段。

在VLA1.0阶段,即端到端和视觉语言模型双系统初步融合阶段,提升智驾系统的对环境的理解能力;VLA2.0阶段,即深度融合的ONE MODEL,在提升智驾系统对环境空间感知理解能力的同时,实现根据感知直接生成运动规划和决策;VLA3.0阶段,即实现拟人的推理能力,类似于GPT-4o一样多轮推理。

从技术迭代上来看,智驾不久将迎来自己的GPT时刻。

过去十几年智驾行业是起起落落,有过浮躁红火,有过冷清低谷。不过,这一回的技术拐点和以前不一样,行业是第一次能够看到清晰可实现的“攀上珠峰”的技术路线图了,整个行业的商业价值也会出现变化的拐点。

正是基于智驾技术进步的路线图和节点,地平线创始人余凯认为智驾三年时间行业大局可定,并预测整个智驾产业将实现“3年脱手开,5年闭眼开,10年随心开”的目标。

地平线在25年也将量产自己的高阶智驾方案HSD(Horizon SuperDriveTM)。地平线的HSD一上来就奔向了端到端VLA,瞄准了未来两三年实现“脱手开”的战略目标。

图片

(HSD系统基本泛化了中国主要地形城市)

一位体验过HSD的业界朋友评价,苏箐出手非常精准犀利,对未来几年智驾技术迭代变化看的很透彻,出手就是抢攻技术制高点。

25年对于地平线来说是一个重要的拐点,迎来在低阶、中阶、高阶上的全面爆发的一个新阶段。

不过,虽然地平线在高阶上软硬结合更加深化,但是地平线对自身的定位仍旧是Tier 2。有了生态,就是一片森林,没有生态,就是一棵树,地平线创始人余凯相信的是森林而不是一棵树木。

地平线对Tier 2和Tier 1的边界有着清晰的认知,重心放在如何撑起整个生态的高度上。

24年地平线生态的合作伙伴迎来丰收的繁荣期,很重要的一个原因就是生态高度上了一个台阶。

众所周知,24年的智驾行业在资本市场遇冷,业内许多智驾公司融资困难。不过,有一些智驾公司仍旧受到资本的追捧,不仅一轮融资就拿到几个小目标,而且甚至一年实现几轮融资,比如轻舟、鉴智机器人、易航等。

这些都是地平线生态的智驾公司,之所以能在资本降温的时代里还能频繁融到钱,一个很重要的原因是:在定点项目上斩获丰盛。

24年下半年,传统主机厂掀起了一波密集的中阶智驾项目招标小浪潮,为应对智驾普及大战做准备。这一波的中阶项目,很大一部分被地平线生态的智驾公司拿到了。

手里的项目多了,就要招兵买马扩充技术力量,资本也很聪明,看到斩获丰盛的智驾公司就追上去加码子弹粮食,让这些公司跑的更快一些。

在这场智驾普及大战之中,地平线生态的智驾公司频频斩获定点拿单,成为各大主机厂的重要帮手。

地平线生态的智驾公司各自推出了差异化的智驾方案,比如,轻舟在J6M上开发出一套轻量级城区NOA的方案,成本便宜,满足了主机厂想把高阶智驾下沉和降本的需求;鉴智基于自己研发的视觉3D感知的算法能力,推出双目立体视觉系统,获得国产和合资主机厂的青睐。

主机厂青睐,资本追捧,地平线生态的合作伙伴迎来丰收的繁荣期。

芯片行业有一句流传甚广的老话:没有生态的芯片就是一块“砖”。这话的意思是说芯片市场的竞争不仅依赖于产品性能,还有生态系统的建设。

那些世界级的芯片公司,在各自领域不仅是产品性能的领先者,而且都构建生态奠定了各自领域的王者地位。

比如PC领域的王者英特尔,在软件操作系统上有微软这样的联盟伙伴,在硬件制造上有戴尔、惠普、联想等,强大的生态使得一直想通过ARM芯片向PC渗透的战略无法奏效;而手机领域的王者高通,也同样构建了强大的生态,软件系统上有安卓,硬件上有小米、VIVO、OPPO等。

生态是芯片公司重要的护城河,芯片产品可以竞争但是生态不可复制。

结束语

在过去,国内能够打造生态系统的大多数都是互联网公司。比如阿里建立电商生态、腾讯建立社交生态、抖音建立了内容生态。而在硬科技领域,基本没有能够建立生态系统的。

而现在,随着2025年疯狂的拿下诸多智驾大订单,硬科技领域诞生了第一家成功建立生态的公司:地平线。

地平线这几年在汽车市场的征战,几乎每一次都精准踩点行业的变化,从低阶切入抓住了20年到22年L2大规模普及的风口,又在24年推出J6推动了中高阶下沉普及,25年在智驾出现技术拐点时推出高阶。

几年持续的洞察、预判、布局,使得地平线2025年的出货量将冲向1000万量产大关。在持续领先的大规模量产的同时,地平线坚持“向上捅破天”,保持智驾技术的领先性,为行业打造新标杆。

#LargeAD

感知任务全面涨点!自动驾驶超强预训练来了(新加坡国立)

论文链接:https://arxiv.org/pdf/2501.04005
项目链接:https://ldkong.com/LargeAD​

写在前面 && 笔者理解

近期视觉基础模型(vision foundation models, VFMs)在2D视觉领域取得了显著进展,比如:SAM, X-Decoder, SEEM等等。这些模型在从2D图像中提取丰富的像素级语义方面表现出色。然而,将这些进步扩展到3D领域仍然是一个有待探索。

在本文中,作者提出了LargeAD,这是一个新颖且可扩展的框架,用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域,以实现几个关键目标:i)使用原始点云作为输入,消除对昂贵标签的需求,ii)利用驾驶场景中的空间和时间线索进行稳健的表示学习,以及iii)确保对预训练数据之外的下游数据集的泛化能力。

这篇工作的关键创新可以总结如下:

  • VFM驱动的超像素生成:通过VFMs从2D图像中生成语义丰富的超像素,这些超像素与LiDAR点云对齐,以构建高质量的对比样本,减少了对比学习中的“自我冲突”问题。
  • VFM辅助的对比学习策略:对齐多模态特征,解决了图像和LiDAR特征之间的跨模态差异。
  • 超点时间一致性:通过时间一致性机制增强点云表示的稳定性,减轻了LiDAR和相机传感器之间不完美同步的错误。
  • 多源数据预训练:利用多种LiDAR数据集进行预训练,构建了一个能够适应不同传感器配置的通用模型,提高了模型的可扩展性。

相关工作基于LiDAR的场景理解

对于自动驾驶车辆而言,准确且密集的3D感知对于安全导航至关重要。研究人员开发了各种点云分割方法,包括基于原始点、范围视图、鸟瞰图、体素以及多视图融合的方法。尽管取得了显著进展,但这些模型通常依赖于大量标注的数据集,这带来了可扩展性问题。为了减轻标注负担,最近的研究探索了半监督、弱监督以及主动学习方法,以及领域适应技术。本工作采用自监督学习策略,通过相机到LiDAR的关联从VFMs中提炼知识,从而在预训练期间消除了对手动标注的需求。

视觉基础模型

计算机视觉领域被开发出利用大量训练数据的视觉基础模型(VFMs)所改变以及复杂的自监督学习技术。其中,Segment Anything Model,即SAM,在通用图像分割方面树立了新的基准,在一系列下游任务中展示了令人印象深刻的零样本转移能力。其他值得注意的VFMs,如X-Decoder、OpenSeeD、SegGPT和SEEM,进一步展示了这些模型在处理多样化图像相关任务中的多功能性。本工作将VFMs的利用扩展到点云学习领域,利用它们的语义理解来增强3D表示学习中的空间和时间线索。

3D中的表示学习

3D自监督学习起源于基于图像的技术,通常侧重于以对象为中心的点云或室内场景,使用预训练任务、对比学习或掩码建模。这些方法通常缺乏户外驾驶场景所需的规模和多样性。如PointContrast、DepthContrast和SegContrast等努力开创了小规模点云的对比目标。最近,Sautier等人引入了SLidR,这是第一个在大规模点云上进行图像到LiDAR表示蒸馏的跨模态自监督学习方法。Mahmoud等人进一步完善了这种方法,引入了语义容忍的对比约束和类别平衡损失。SuperFlow引入了一个时空一致性框架,以高效地捕获多个时间步长的动态线索。作者的框架在SLidR的基础上,利用VFMs创建了一个更有效的跨模态对比目标。作者还引入了一个超点时间一致性正则化,以增强在多样化和动态的现实世界驾驶场景中的特征学习和稳健性。​

图像到LiDAR数据预训练

问题表述

定义一个点云 ,由LiDAR传感器收集的  个点组成。每个点  表示3D坐标,而  表示其特征嵌入,例如强度、延伸率等。本工作旨在将知识从一组由  个同步的RGB相机捕获的环视图像  转移到点云 。每张图像  具有由高度  和宽度  定义的空间分辨率。鉴于LiDAR和相机传感器被假设为良好校准,每个LiDAR点  可以投影到图像平面上作为一个像素 ,使用以下坐标变换:

其中  表示相机内参矩阵,而  是从LiDAR到相机坐标系的转换矩阵。之前的工作使用无监督的SLIC算法将具有相似RGB属性的图像区域聚合成一组超像素,记为 。随后,使用式(1)推导出对应的超点集 。为了促进从图像到LiDAR域的知识转移,这些方法通常在超像素和超点的表示之间进行跨模态对比学习。

超像素驱动的对比学习

早期的方法,如PPKT,通过对比学习将图像像素与对应的LiDAR点对齐。然而,PPKT在应用于稀疏点云数据时,往往会遇到一些限制,例如由于视点差异导致的错位、局部语义建模不足、密集和稀疏区域的权重不平衡以及对假阴性的处理不佳。尽管它在密集区域(例如靠近车辆的地方)表现良好,但其在稀疏区域的有效性显著下降,限制了其整体泛化能力。为了克服这些问题,SLidR引入了一种使用SLIC算法将相似像素聚合成一致超像素的超像素驱动蒸馏方法。通过在图像中的超像素和LiDAR数据中的超点之间进行对比学习,SLidR减少了由于传感器视点导致的对齐错误,并增强了局部语义一致性。在超像素和超点级别聚合特征解决了PPKT中存在的权重不平衡问题,确保了对密集和稀疏区域的更好处理。此外,对比学习覆盖更大区域有助于减少假阴性,从而实现更稳健的图像到LiDAR知识转移。

对比学习目标

设  表示一个可训练参数为  的LiDAR点云编码器,它处理点云  并为每个点输出一个  维的特征。另外,设  是一个图像编码器,参数为 ,从2D自监督预训练模型中初始化。为了计算超像素驱动的对比损失,作者构建了可训练的投影头  和 ,将3D点特征和2D图像特征映射到相同的  维嵌入空间。点投影头  是一个线性层,后跟 -归一化。图像投影头  包含一个  卷积层,后跟一个固定双线性插值层,在空间维度上输出,并进行 -归一化。目标是将2D网络的知识蒸馏到3D网络中,确保每个语义超点特征与其对应的语义超像素特征紧密相关。具体来说,超像素  和超点  用于分别对像素和点嵌入特征进行分组。对分组后的像素和点嵌入应用平均池化操作,以获得超像素嵌入特征  和超点嵌入特征 。对比损失  定义如下:

其中  表示超点和超像素嵌入特征之间的标量积,衡量它们的相似性。 是一个温度参数,用于缩放相似性分数。​

LARGEAD:一个可扩展、多功能且通用的框架

从基础模型生成超像素

图片

以往的研究利用SLIC将视觉上相似的图像区域聚合成超像素。然而,SLIC往往会过度分割语义连贯的区域(见图2),这给对比学习带来了挑战,特别是由于“自我冲突”现象。当语义相似的超像素被错误地视为负样本时,就会出现这种情况。SLIC缺乏对高级语义的理解加剧了对比学习中的困难。为了克服这些挑战,作者使用视觉基础模型(VFM)生成语义超像素,这些超像素在语义上丰富,显著提高了对LiDAR点云中近点和远点的表示学习(见图5)。

图片

与依赖低级RGB特征的方法不同,作者的方法通过利用从大规模预训练图像编码器派生的VFM来增强超像素生成。与SLIC不同,VFM捕获高级语义信息(如图2所示),使作者能够创建更具语义意义的超像素集,记为 。生成过程从通过提示创建语义掩码开始。通过引入更抽象的特征,VFM有效地通过更连贯地分组语义相似区域来解决“自我冲突”问题,减少了对比学习期间的误分类风险。因此,生成的超像素更准确地代表了对象语义,而不仅仅是视觉相似性。使用式(1),建立对应的超点集 ,确保2D图像特征和3D LiDAR点特征之间的正确对齐。作者的VFM辅助超像素有两个主要目的:首先,它们增强了生成的超像素的语义丰富性;其次,它们改进了2D图像特征与3D LiDAR点云之间的对齐。通过利用VFM提供的高级语义特征,作者的方法有效地解决了传统基于低级RGB特征的方法中经常出现的错位和特征不一致问题。

语义空间一致性学习

在上一节的基础上,作者引入了一个VFM辅助的对比学习框架,利用这些高级视觉特征。主要目标是在统一的语义空间中对齐超像素与超点,确保在训练期间不同模态中的对应区域被视为正对。为了实现这个框架,作者使用了前面描述的相同的可训练LiDAR点云编码器  和冻结的图像编码器 ,分别从LiDAR点云和2D图像中提取特征。对于对比损失,作者使用投影头  和 ,将点和图像特征投影到共享的  维嵌入空间中。与SLIC生成的低级线索不同,VFM产生的超像素富含语义信息,导致更具连贯性和意义的表示。为了计算VFM辅助的对比损失,作者对由超像素集  和对应的超点集  分组的像素和点嵌入应用平均池化。这个过程产生了超像素嵌入  和超点嵌入 。VFM辅助的对比损失  定义如下:

对比学习框架从VFM提供的丰富语义信息中收获很多。首先,这些语义增强的超像素有助于缓解现有方法中普遍存在的“自我冲突”问题。其次,由VFM生成的高质量对比样本形成了一个更具连贯性的优化景观,与无监督超像素生成方法相比,实现了更快的收敛。最后,使用VFM的超像素将嵌入长度从数百(SLIC)减少到数十,提高了计算效率并加速了整体训练过程。

实例超点时间一致性

在现实部署中,完美同步的LiDAR和相机数据通常是不切实际的,限制了可扩展性。为了解决这个问题,作者依赖点云的准确几何信息来减轻同步约束。

隐式几何聚类。作者首先使用RANSAC算法从时间戳  的LiDAR点云  中移除地面平面点,选择非地面点 。然后,作者使用HDBSCAN算法将  分组为  个段,。为了在不同时间戳之间映射段视图,作者将LiDAR帧转换为全局坐标系,然后进行聚合。这给出了聚合点云 。同样,作者使用RANSAC从  中生成非地面平面 。以相同的方式,作者对  进行分组以获得  个段 。为了为  个扫描在  个连续时间戳上生成段掩码,即 ,作者保持从聚合点云  到  个单独扫描的点索引映射。

超点时间一致性。作者利用聚类段来计算相关语义超点之间的时间一致性损失。具体来说,给定采样的时间对  和  及其对应的段  和 ,作者从点投影头  计算点特征  和 。对于目标嵌入,作者根据段  和  将点特征  和  分成  组。然后,作者对  应用平均池化操作,以获得  个目标均值特征向量 ,其中 。设分割点特征  为 ,其中  且  是对应段中的点数。作者计算时间一致性损失  以最小化当前帧(时间戳 )中的点特征与下一帧(时间戳 )中对应段均值特征之间的差异,如下所示:

由于所有属于当前帧中一个段的点的目标嵌入都作为下一帧中对应段的均值表示,这个损失将迫使一个段中的点收敛到一个均值表示,同时与其他段分离,隐式地将来自同一实例的点聚类在一起。图4提供了作者对比学习框架中的正特征对应关系。此外,作者在生成目标均值嵌入特征时交换 ,形成对称表示。这样,对应关系从  和  都被鼓励,导致以下优化目标:。

点到段正则化。为了将属于同一实例的LiDAR点在时间戳  拉近,作者最小化点特征  与对应均值聚类特征  之间的距离。为了实现这一点,作者使用最大池化函数根据段对  进行池化,以获得 ,其中 。点到段正则化通过以下  损失函数实现:

其中  表示对应段中的点数。最终的优化目标是最小化上述语义空间一致性损失 、时间一致性损失  和点到段正则化损失 。作者的语义超点时间一致性利用点云的准确几何信息,确保跨时间戳的一致表示。当LiDAR和相机之间的2D-3D对应关系不可靠时,这种方法仍然稳健,减轻了校准或同步问题引起的错误。点到段正则化进一步改进了空间聚合,增强了模型区分实例的能力,例如“汽车”和“卡车”。作者的实验结果证实,这些正则化策略不仅改进了表示学习,而且在传感器扰动下仍然有效。

多源数据预训练

之前的工作主要关注使用单源LiDAR数据集进行模型预训练。这种方法在应用于源外任务时限制了其泛化能力,因为不同的LiDAR数据集通常表现出不同的特征。为了克服这些限制,作者提出了一种多源数据预训练策略,整合了多种数据集,提高了特征表示的稳健性。这种策略增强了模型对不同LiDAR传感器的适应性,并提高了其跨领域的泛化性能。多源对比学习。考虑来自  个不同源的多个LiDAR数据集 。作者的LiDAR点云网络  被设计为在所有传感器上表现一致。然而,这些数据集的特征分布存在显著差异。例如,nuScenes 中的强度值范围从0到255;而SemanticKITTI 中的强度值范围从0到1。这些差异在使用共享模型权重跨数据集学习时使学习过程复杂化。为了处理这些领域特定的变化,作者首先对每个数据源的特征嵌入进行归一化。对于每个数据集,作者计算特征分布的均值  和方差 ,然后按以下方式归一化特征嵌入:

这种归一化确保了跨数据集的一致特征表示,最小化了不同分布特征的影响。归一化后,特征嵌入被送入网络 ,生成点特征,这些特征被分组成每个领域的超点嵌入,。为了提高模型跨数据集的泛化能力,作者采用跨数据集预训练对比损失 ,鼓励模型学习跨数据源的共享表示,同时保留每个领域的独特特征。这个损失定义如下:

这里,这个损失确保了来自同一源的超点嵌入更加相似,同时在不同源的超点之间保持足够的分离。这个对比目标增强了模型处理多域数据的能力,并鼓励开发共享但可适应的特征表示。多源数据预训练利用多种数据源创建了一个更具弹性和灵活的模型。通过解决领域之间的显著分布差异,特征归一化确保了跨不同数据集的一致性,促进了更统一的表示空间。

整体框架

作者的框架整合了几个创新组件,以实现可扩展且稳健的3D场景理解。一个关键元素是使用VFM生成语义丰富的超像素,解决了传统方法中的过度分割和自我冲突问题。这使得2D图像特征与3D LiDAR数据之间的对齐更加准确,增强了整体表示学习。

作者的方法结合了VFM辅助对比损失 ,确保了超像素与超点之间的语义一致性,而时间一致性损失  维持了跨帧的稳定点表示。点到段正则化损失  进一步改进了段内的空间一致性。最后,跨数据集预训练损失  解决了领域特定的变化,增强了模型跨不同LiDAR传感器的泛化能力。这些目标共同创建了一个稳健且多功能的框架,确保在各种任务和领域中实现卓越性能,同时保持了在现实世界应用中的可扩展性和适应性。​

实验及结果

数据集

作者使用十一个不同的数据集来评估作者的方法的有效性。第一组包括大规模真实世界的LiDAR数据集:nuScenes,SemanticKITTI 和Waymo Open,还包括ScribbleKITTI。对于非铺装路面场景,作者考虑RELLIS-3D ,它包含校园环境的多模态数据,以及SemanticPOSS ,这是一个关注动态对象的较小数据集。此外,作者还纳入了SemanticSTF ,它提供了在恶劣天气条件下收集的LiDAR扫描。作者还使用了三个合成数据集:SynLiDAR 、Synth4D 和DAPS-3D ,所有这些数据集都是使用模拟器生成的,以提供多样化的驾驶环境和场景。最后,作者在nuScenes-C 上评估鲁棒性,这是Robo3D挑战赛的一个基准,包含现实驾驶中常见的八种分布外干扰。

比较研究

与SOTA的比较。作者将所提出的LargeAD与随机初始化和十一种最先进预训练技术进行比较,使用线性探测(LP)和少样本微调协议在nuScenes上进行评估,结果如表1所示。结果表明预训练对下游任务性能有显著影响,特别是在1%、5%和10%的微调预算等低数据场景中。当从ResNet、ViT-S、ViT-B和ViT-L提炼知识时,作者的框架在LP设置下分别实现了46.13%、46.58%、47.84%和48.71%的mIoU分数,大幅超过了之前最佳模型。

图片

此外,作者的框架在nuScenes上的几乎所有微调任务中都持续提供了最高性能,突出了VFM辅助对比学习、空间-时间一致性正则化和多源数据预训练组合的有效性。

下游泛化。为了彻底评估LargeAD的泛化能力,作者在总共九个自动驾驶数据集上进行了实验,结果总结在表1(SemanticKITTI和Waymo Open)和表3(其他七个数据集)。每个数据集都呈现出不同的挑战,包括传感器类型、采集环境、规模和数据保真度的变化,这使得对模型泛化能力的评估非常严格。作者的框架在SemanticKITTI和Waymo Open上分别实现了51.68%和52.68%的mIoU分数,当从ViT-L提炼时,为这些基准设定了新的标准。作者还在表3中的其他七个数据集上超过了SLidR和Seal,结果一致显示作者的方法在所有评估数据集上都优于现有的最先进方法。这些结果强调了作者的方法在广泛的真实世界汽车感知任务中的稳健性和适应性。

图片

鲁棒性探测。评估在分布外数据上学习到的表示的鲁棒性至关重要,特别是在现实世界应用中环境不可预测的情况下。作者使用Robo3D基准中的nuScenes-C数据集来评估在各种干扰下的鲁棒性。如表4所示,自监督学习方法如PPKT和SLidR通常比传统的基线(随机初始化)如MinkUNet表现出更好的弹性。作者的方法,LargeAD,在几乎所有干扰类型中都实现了优越的鲁棒性,超过了其他最近的依赖不同LiDAR表示的分割骨干网络的方法,包括范围视图、鸟瞰图(BEV)、基于原始点的方法和多视图融合。这些结果强调了作者的预训练框架在多样化的真实世界自动驾驶条件下的适应性和弹性。

图片

3D目标检测的改进。除了LiDAR语义分割外,作者还将框架扩展到nuScenes数据集上的3D目标检测任务,并与最先进预训练方法进行比较。结果如表5所示,表明作者的方法在5%、10%和20%的各种数据比例下,对于CenterPoint和SECOND骨干网络都持续优于竞争方法。

图片

特别是,作者的方法在所有微调级别上都实现了最高的mAP和NDS,超过了最近的技术,如CSC和TriCC。值得注意的是,作者的框架在有限的微调数据下保持了卓越的性能,展示了其在3D目标检测中的稳健性和有效性。这些结果进一步验证了作者的框架在自动驾驶中的多个具有挑战性的任务中的泛化能力,从语义分割到目标检测。

定性评估。为了进一步评估作者框架的性能,作者在图6中可视化了nuScenes上的分割预测。预训练方法明显增强了与从随机初始化训练的模型相比的分割质量。在比较的方法中,LargeAD展示了最一致和准确的结果,特别是在复杂的驾驶环境中。这种改进可以归因于作者预训练策略中嵌入的稳健的空间和时间一致性学习。

图片

消融研究

比较不同的基础模型。这是第一次尝试将VFM适应于大规模点云表示学习。作者在四个流行的VFM上进行了全面的消融研究,即SAM、XDecoder 、OpenSeeD 和SEEM,结果如表6所示。作者的实验表明,不同的VFM对对比学习目标有不同的影响。所有VFM都一致地优于传统的SLIC。有趣的是,SAM生成了更细粒度的超像素,这在使用更大的标注数据集进行微调时增强了性能。作者假设SAM提供了更多样化的负样本,这可能有利于超像素驱动的对比学习。在所有配置中,LargeAD都显著超过了SLidR,证实了作者提出的大型跨传感器数据预训练框架的有效性。

图片

余弦相似度。作者在图5中可视化了各种VFM之间的特征相似性,提供了在微调之前表示之间差异的见解。像X-Decoder、OpenSeeD和SEEM这样的语义丰富的模型在对象和背景之间显示出清晰的特征区分。相比之下,像SLIC和SAM这样的无监督或过于细粒度的方法显示出较弱的语义意识。这些定性观察在从线性探测和微调任务(见表6)的性能结果中得到了反映,其中SEEM展示了在跨传感器表示学习中更强的一致性正则化,从而提高了下游任务的性能。

组件分析。LargeAD的核心组件的消融结果如表7所示。仅整合VFM(行c)在线性探测中就提供了4.20%的mIoU改进,而添加时间一致性学习(行b)又额外提供了1.65%的mIoU增益。将这两个组件结合起来(行d)总共提供了5.21%的mIoU提升。点到段正则化(行e)本身也贡献了显著的4.55% mIoU改进。当所有组件都整合在一起(行g)时,最终模型总共获得了6.33%的mIoU增益,超过了SLidR,在分布内和分布外基准测试中都优于所有最先进的方法。

图片

随着数据源的扩展。作者进行了消融研究,以检查在预训练期间使用不同数据集的影响,如表8所示。结果表明,仅在一个数据集上进行预训练,即nuScenes(N)、SemanticKITTI(K)或Waymo Open(W),就比随机初始化提供了显著的改进,特别是在线性探测(LP)和1%微调评估中。然而,随着在预训练中结合更多的数据集,性能在分布内(预训练数据集)和分布外数据集上都持续提高。例如,在所有三个数据集(N + K + W)上进行预训练,结果在所有场景中都获得了最佳性能。有趣的是,多数据集预训练的好处在分布外结果中最明显,结合两个或三个数据集比单数据集预训练带来了显著的增益。例如,结合nuScenes和Waymo Open(N + W)在nuScenes上的LP达到了47.42%的mIoU,超过了单数据集预训练设置。同样,使用所有三个数据集在分布外场景中超过了两个数据集的组合,特别是在Waymo Open中,在1%微调中达到了51.52%的mIoU。这些结果突出了多源预训练的重要性,它不仅提高了在分布内数据集中的泛化能力,而且显著增强了分布外性能,展示了作者提出的框架的稳健性和可扩展性。

图片

结论

本文介绍LargeAD,一个为大规模预训练设计的可扩展通用框架,适用于多种LiDAR数据集。该框架利用视觉基础模型(VFM)生成语义丰富的超像素,对齐2D图像特征与LiDAR点云,提升表示学习。通过VFM辅助对比学习、超点时间一致性和多源数据预训练,LargeAD在多个3D场景理解任务中达到顶尖性能,包括LiDAR语义分割和3D目标检测。广泛的实验表明,该框架在不同数据集上表现出色,具有良好的泛化和鲁棒性。消融研究证实了多数据集预训练和各组件的重要性。

#150亿造车新势力,宣布停运破产

百亿造车巨头,破产清零了。

造车8年,滑板底盘造车鼻祖Canoo,刚在主页更新了公告,宣告公司已申请破产,并立即停运。

辉煌时,这家公司云集宝马、福特、Uber等巨头的前高管,仅4年就在纳斯达克上市,市值一度高达150亿。

如今深陷泥沼,因融资失败而破产,随着9位创始人全部离去,Canoo的造车故事,自此遗憾画上句点。

滑板底盘造车的故事,在美国遭受了重创。

Canoo破产并立即停运

还是没熬过。

电动汽车公司Canoo刚发布了一条公告,宣告申请了美国破产法第7章,公司正式破产,并立即停止运营

其实在一个月前,Canoo的破产就有征兆。

上个月18日,Canoo也发布了一则公告,宣布暂停位于俄克拉荷马州的工厂,并让82名员工“休假”,公司将全力筹集继续运营的资金

只是没想到,情况要比想象的更加危急。

从公开数据来看,去年11月份,Canoo披露财报指标,公司去年第三季度营收90万美元(约659万元),同比增长71%,环比增长47%。

营收额不高,但增长速度惊人,主要是因为Canoo其实2023年第三季度才开始有收入,甚至去年第一季度又“颗粒无收”。

并且这是Canoo的首份盈利财报,净利润为325.8万美元(约2386.6万元),但前三季度的累计亏损仍有1.12亿美元(约8.2亿元)。

最关键的是,截至季度末,Canoo账上的现金只剩下1600万美元,折合人民币大约是1.2亿元

短期内,如果不能获得足够的资金支持,Canoo将不得不接受破产的命运,但事实,恰恰就是他们最不想看到的那样。

Canoo表示,由于未能获得美国能源部 (DOE) 贷款,与外国资本的谈判也没成功,公司资金链彻底断裂。

事到如今,这家巅峰市值21亿美元(约154亿元)的造车新势力,最新股价只剩1.35美分,折合人民币连一毛钱都不到

滑板底盘鼻祖,造车这一路

成立于2017年的Canoo,是滑板底盘赛道的代表性玩家。

创始人斯特凡·克劳斯(Stefan Krause)和乌尔里希·克兰茨(Ulrich Kranz),都是车圈老炮,还都出身宝马

克劳斯擅长财务,曾经担任过宝马和德意志银行的首席财务官克兰茨曾是宝马i3系列车型的项目主管,被称为“宝马i系列之父”

△左:斯特凡·克劳斯;右:乌尔里希·克兰茨

而且两人都曾是贾跃亭的手下干将,担任过法拉第未来(FF)的CFO和CTO

离开FF后,他们发现了滑板底盘的商机,一拍即合创立了Canoo。

所谓滑板底盘,就是一种专门为电动车设计的一体化底盘架构,将电池、传动系统、悬架等汽车部件,直接整合到一个通用底盘上。

其优势在于取消机械连接,车舱可以保留更多空间,而且同一个底盘,能够灵活适应不同大小的车辆类型,从而提升整个汽车产品系列的可扩展性。

目前为止,Canoo推出的四个系列车型,就都是基于自研的滑板式底盘打造。

一款是2019年面世的旗下首款电动车MPV,还有一款皮卡、一款轿车,以及生活方式送货车LDV

车造出来了,接下来该考虑的就是卖给谁。

Canoo的商业模式,起初设想非常美好,他们计划兼顾2B2C市场,3条腿走路:

对于2B市场,一条线是与主机厂合作,直接为他们提供滑板底盘;另一条则是针对物流货运

而在2C市场,Canoo提出了一个全新玩法——订阅模式:消费者在Canoo官方平台申请车辆,之后按月付费使用Canoo的车辆,类似于“短租”。

Canoo原本打算把这种模式当作主要的营收渠道,他们认为,既可以为消费者省去抵押、上牌等无形成本,公司也可以按需生产,降低制造成本,提升利润空间,岂不两全其美?

怎料,现实却并没有想象中的顺利。

主机厂普遍不太愿意把底盘业务交给别人,比如Canoo和现代汽车的合作项目,没多久就胎死腹中。

同时创新性的订阅模式也没搞起来,Canoo一度吸金困难,恰逢此时,CEO乌尔里希·克兰茨,跳槽去了苹果拓展汽车业务,连带着一场小型离职潮在Canoo爆发。

这种背景下,执行董事长托尼·阿奎拉(Tony Aquila),也是公司投资人,召开了分析师会议上,几乎推翻了此前所有的商业规划:

把订阅模式的收入占比,压缩到20%以下,重心面向货运领域的2B市场。

2022年,Canoo等到了一笔大单,沃尔玛宣布要购买4500辆Canoo LDV,用于配送在线订单。

但这也是Canoo一直到现在为止的最大订单,虽然Canoo还得到了美国邮政局和NASA的订单支持,但两者加起来的数量也只是9辆,不足以帮助Canoo力挽狂澜,也没法规模化降本。

如此,在接下来的几年,不仅是投资人逐渐失去信心,公司内部,曾经吸引来的创始高管,也都接连出走。

到2024年9月,伴随着汽车工程高级总监,克里斯托夫·库特纳 (Christoph Kuttner) 的离职,当初的9位联合创始人已全部离开。

Canoo已是形存神灭。

滑板造车,还能玩下去吗?

Canoo倒下,看起来像是对滑板底盘造车,再次敲响警钟。

细想之下,Canoo这些问题的症结,都在齐齐指向商业模式

不单单是Canoo自身的商业模式,也是滑板式底盘赛道的商业模式。

这个赛道第一个爆雷的Arrival,和Canoo类似,都走向了商用车路线,制造配送车、轻型货车卖给商超、物流商。

这样的模式,要面临着逃不开的困局,首先是这样的客户订单总量不大,因此难以规模化降低成本。

其次,滑板造车玩家并不提供自动驾驶技术,交付的车还是需要人类驾驶的车,但成本又远高于传统货车,愿意买账的人更加有限。

第二条路线,就是更为知名的Rivian选择的,乘用车路线,并且Rivian更倾向于整车生产,滑板底盘更多是一个标签。

不过,Rivian为了在北美市场活下来,首款产品几乎集全部资源押注了皮卡车型,竞争压力也可想而知。

如今走下去,也需要源源不断的融资在后方燃烧,刚刚还向美国能源部申请了一笔66亿美元(约483亿元)的贷款

但如果把视线放得更远,还存在一条路线,可以看向国内代表玩家,悠跑科技和PIX Moving

他们的模式,主要面向大客户,提供一体式底盘解决方案,更关键的是,他们面向的群体是中国。

悠跑创始人李鹏曾表示,国外玩家最大的战略错误,就是没来中国。

“你不来中国,拿不到全球最大电动汽车市场、全球最好供应链的支持,必然导致一个结果:交付不行。
我不认为滑板底盘不行,只是大家在商业操作上有很严重的问题。这件事(指滑板式底盘),我认为有且只有中国能做。”

上个月,就在Canoo关厂“裁员”的同时,悠跑刚刚完成了B轮融资,由合肥领投,徐州产发基金、以及博世集团旗下博原资本跟投,筹集到了数亿元人民币。

看起来,滑板底盘造车的未来,也许更多要看中国玩家了。

参考链接:

​​https://investors.canoo.com/news-presentations/press-releases/detail/159/canoo-inc-announces-chapter-7-bankruptcy-filing​​​​https://electrek.co/2025/01/18/another-one-bites-the-dust-as-canoo-files-for-chapter-7-bankruptcy/​​

#GaussianWorld

清华提出高斯世界模型

以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述,这对于开发安全且强大的自动驾驶系统非常重要。

利用时间输入对于 3D 占用预测非常重要,因为它为理解场景演变提供了足够的历史上下文信息。大多数现有方法遵循传统的感知、转换和融合流程,给定顺序输入信息,感知模块独立获得每个帧的场景表示,例如BEV特征以及体素特征。然后,转换模块根据自车轨迹对齐多帧的时序特征信息,融合模块融合对齐的特征表示以推断当前的 3D 占用情况。

然而,这些方法未能考虑驾驶场景演变的固有连续性和简单性。相邻帧中的驾驶场景表示应该彼此紧密相关,因为场景演变通常仅源于自车和其他动态物体的运动。直接融合多帧表征会忽略 3D 场景演化提供的这种强先验信息,即静态物体连贯性和动态物体运动,这使得模型很难理解驾驶场景的发展。此外,这种设计增加了时间建模的复杂性和计算工作量,从而降低了其效率和有效性。

考虑到上述提到的相关问题,在本文中,我们探索基于世界模型的范式以利用场景演变进行感知,该算法称为GaussianWorld。GaussianWorld采用显式 3D 高斯作为场景表示,而不是传统的隐式 BEV/Voxel 表示,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入,GaussianWorld算法模型旨在预测场景如何演变并预测当前的占用情况。

为了证明提出的GaussianWorld算法模型的有效性,我们在流行的nuScenes数据集上进行了大量实验。如下图所示,我们的 GaussianWorld 可以有效地预测场景演变,并在不引入额外计算的情况下将单帧占用率预测提高 2% 以上(mIoU)。

图片

论文链接:https://arxiv.org/pdf/2412.10373

网络模型结构&技术细节

World Models for Perception

精确感知 3D 场景对于开发可靠的自动驾驶系统至关重要。它旨在预测 3D 场景的几何形状和语义,以支持后续的预测和规划任务。感知模型利用前帧和当前帧的传感器输入来获得感知结果。

图片

感知任务中的时间建模的传统流程包括三个阶段,分别是感知、转换和融合。感知模块首先独立提取每一帧的场景表示。随着自车的前进,跨帧的自车表示会错位。转换模块通过根据自我轨迹将过去的特征与当前帧对齐来解决此问题。然后,融合模块整合对齐的多帧表示以供感知进行使用。传统的流程可以表述为如下的公式形式。

图片

尽管该框架的性能取得了较为不错的成绩,但它未能考虑驾驶场景固有的连续性和简单性。驾驶场景的演变通常仅源于自车和其他动态物体的运动。相邻帧中的驾驶场景表征本质上是相关的,包含了世界的演化动力学和物理定律。然而,直接融合多帧表征会忽略这种强先验信息,从而限制其性能。

受此启发,我们探索了一种基于世界模型的范式,以利用场景演化进行感知。世界模型通过学习简单但有效的时间建模先验来增强感知。我们使用感知世界模型根据先前的表示和当前的传感器输入预测当前的表示,具体的表现形式如下

图片

我们进一步将 3D 感知任务重新表述为以当前传感器输入为条件的 4D 预测问题,其表述形式如下

图片

通过获得预测的场景表征和下一个观察值后,我们可以将它们输入到世界模型中,以流式方式预测下一个表征。世界模型根据场景演变和当前观察值学习场景表征的联合分布,最终用于实现感知。​

Explicit Scene Evolution Modeling

驾驶场景的演化一般简单且连续,主要由动态物体的运动引起。当在一定范围内采用以自车为中心的场景表示时,场景演化通常可以分解为三个关键因素:静态场景的自我运动对齐,动态物体的局部运动,新观察区域的补全。通过对这些因素进行建模,世界模型可以学会有效地演化场景,如下图所示。

图片

考虑到上述场景演化的分解,我们采用 3D 高斯作为场景表示,以明确和连续地对场景演化进行建模。我们用一组稀疏的 3D 语义高斯来描述 3D 场景,其中每个高斯代表一个具有明确位置、比例、旋转和语义概率的灵活区域。为了学习场景演化,我们引入了一个额外的时间特征属性来捕获 3D 高斯的历史信息。3D 高斯表示可以表述为如下的公式形式。

图片

我们进一步提出了一个 3D 高斯世界模型,GaussianWorld,以利用场景演化进行感知。提出的 GaussianWorld 对之前的 3D 高斯和当前的传感器输入进行操作,以预测当前的 3D 高斯。

图片

接下来,我们将介绍 GaussianWorld 如何在三维高斯空间中对上述场景演化的分解因素进行建模。

(1)Ego Motion Alignment of Static Scenes.

GaussianWorld 的目标是基于之前的高斯结果预测当前的3D高斯,每帧的 3D 高斯表示代表以相应帧的自车位置为中心的一定范围内的场景,向前移动会导致物体的全局位移。GaussianWorld 通过使用对齐模块来对齐从上一帧到当前帧的 3D 高斯位置来解决此问题。为了实现这一点,它基于自车轨迹对整个场景的 3D 高斯进行全局仿射变换。形式上来看,给定最后一帧 3D 高斯和仿射变换矩阵,对齐的 3D 高斯可以表示为如下的公式形式。

图片

(2)Local Movements of Dynamic Objects

我们还考虑了场景演变过程中动态物体的局部运动。GaussianWorld 通过更新动态高斯函数的位置来实现这一点。对齐的 3D 高斯函数根据其语义概率分为两个互斥集,分别是动态高斯集合和静态高斯集合。然后,GaussianWorld 使用运动层来学习对齐的 3D 高斯的联合分布和当前观察结果,以预测动态高斯的运动。

图片

(3)Completion of Newly-Observed Areas

当自车移动到新位置时,某些现有区域会超出边界,而一些新区域则变得可观察。我们丢弃超出边界的高斯函数,并使用随机初始化的高斯函数补全新观察到的区域。为了保持一致数量的 3D 高斯函数,我们在新观察到的区域中均匀采样等量的 3D 高斯函数。随后,GaussianWorld 使用感知层根据当前观察预测新观察区域中已补全的 3D 高斯分布的所有属性。

图片

3D Gaussian World Model

接下来,我们介绍一下本文提出的GaussianWord的整体框架。从前一帧的 3D 高斯开始,我们首先应用对齐模块来获取当前帧的对齐 3D 高斯。在新观察到的区域中,我们采样额外的 3D 高斯并将其当前帧的3D高斯进行混合,从而一起描述整个场景。

图片

我们基于当前传感器的输入数据,使用运动层和感知层来更新对齐的3D高斯以及最新观察到区域的3D高斯。值得注意的是,这两层共享相同的模型架构和参数,即编码器模块和细化模块,从而允许它们集成到统一的演化层中并并行计算。这种设计确保GaussianWorld 保持模型简单性和计算效率。我们堆叠多个演化层以迭代地细化 3D 高斯函数,使模型具有足够的能力来学习场景演化

图片

此外,为了解决 3D 高斯表示与现实世界之间的潜在不一致问题,我们加入了另外的细化层来微调 3D 高斯的所有属性

图片

演化层和感知层之间的唯一区别在于历史高斯的哪些属性被调整。这种调整可以合并到统一的细化块中,如下图所示。因此,两个层都可以集成到统一的高斯世界层中。

图片

我们采用交叉熵损失和 lovaszsoftmax损失进行训练,首先在单帧任务上对我们的模型进行预训练。然后我们使用流式训练策略对模型进行微调,其中每个场景的图像按顺序输入到模型中。在每次训练迭代期间,将当前帧图像与上一帧中预测的 3D 高斯相结合输入到模型中进行 3D 占用预测。当前帧中预测的 3D 高斯将传递到下一次迭代进行连续流式训练。在流式训练的早期阶段,模型还不能熟练地预测场景的演变,导致流式预测误差很大。为了增强训练稳定性,我们从短序列开始训练,并在整个训练过程中逐渐增加序列长度。我们使用概率建模,并在每次迭代中以的概率随机丢弃前一帧的 3D 高斯表示。随着训练的进展,我们逐渐降低的值,使模型能够适应预测更长的序列。

实验结果&评价指标

我们对 nuScnene 验证集上以视觉为中心的 3D 语义占用预测方法与其他最先进方法进行了全面比较,并使用 SurroundOcc 的占用标签,相关的实验结果如下表所示。

图片

对于 GaussianWorld 的第一个训练阶段,我们在单帧设置中复现了 GaussianFormer,记为 GaussianFormer-B。仅使用 25600 个高斯函数,它就实现了与当前最先进的方法相当的性能。由于此基准上缺乏时序建模方法,我们引入了 GaussianFormer 的时序融合变体以进行公平比较,记为 GaussianFormer-T。经过第二阶段的训练,我们的 GaussianWorld 的表现远胜于所有单帧模型和基于时序融合的 GaussianFormer。与单帧模型 GaussianFormer-B 相比,它的语义 mIoU 提高了 2.4%,几何 IoU 提高了 2.7%。此外,GaussianWorld 的表现也优于时间融合模型 GaussianFormer-T,mIoU 增加了 1.7%,IoU 增加了 2.0%。这些结果凸显了我们基于世界模型的感知框架优于传统的时序融合方法。相关的可视化结果如下图所示。

图片

我们对基于 GaussianFormer 的不同时序建模方法的性能和效率进行了比较。我们探索了两种实现 GaussianFormer-T 的方法,分别在 3D 高斯空间和透视视图空间中进行时序融合。对于前者,我们独立提取每帧的 3D 高斯表示,并利用 4D 稀疏卷积来促进跨帧 3D 高斯之间的时序交互。对于后者,我们独立提取每帧的多尺度图像特征,并采用可变形注意机制来实现当前帧的 3D 高斯和来自不同帧的图像特征之间的交互。相关的实验结果指标如下所示。

图片

我们的 GaussianWorld 远远超越了所有其他时序建模方法,并且显著降低了延迟和内存消耗。值得注意的是,与单帧模型相比,我们的 GaussianWorld 在推理延迟和内存消耗几乎相同的情况下显著提高了性能。这归功于我们统一而简洁的模型架构,它可以处理单帧输入和流式输入,而无需引入额外的计算。

此外,我们的 GaussianWorld 明确地模拟了基于世界模型的感知场景演化的三个分解因素。为了评估这些因素的影响,我们进行了消融研究以确认其有效性,相关额实验结果如下表所示。

图片

下表也展示了使用不同流长度时,我们的 GaussianWorld 的 mIoU 和 IoU 性能。我们观察到,流式传输更多帧通常会带来更好的性能,但在大约 20 帧后会略有下降。改进源于我们对场景演变的建模,有效地考虑了历史帧。

图片

我们也探讨不同流媒体训练策略的影响,相关的实验结果汇总在下面的表格中。

图片

结论

在本文中,我们提出了一个基于世界模型的框架,利用场景演化进行 3D 语义占用预测。我们将 3D 占用预测重新表述为以当前传感器输入为条件的 4D 占用预测问题。我们将场景演化分解为三个因素,并利用 3D 高斯进行显示建模。然后,我们使用GaussianWorld 来显式地利用 3D 高斯空间中的场景演化,并以流式传输的方式促进 3D 语义占用预测。大量的实验结果表明,与现有方法相比,我们的模型在不引入额外计算开销的前提下,展示了SOTA的性能。

#HoloDrive

用于自动驾驶的整体2D-3D多模态街道场景生成 !

生成模型显著提升了自动驾驶领域的相机图像或激光点云生成和预测质量。然而,现实中的自动驾驶系统通常使用多种输入模态,包括相机和激光雷达,这些传感器提供的信息互补,有助于生成更加准确的结果。

现有的生成方法忽略了这一关键特征,导致生成结果只能覆盖单独的2D或3D信息。为了填补2D-3D多模态联合生成的空白,本文提出了一种名为HoloDrive的框架,旨在联合生成相机图像和激光点云。

作者在这两个异构生成模型之间采用了BEV-to-Camera和Camera-to-BEV转换模块,并在2D生成模型中引入了一个深度预测分支,以消除从图像空间到BEV空间的未投影歧义,然后通过添加时间结构并精心设计逐步训练方法来预测未来。

此外,作者在单帧生成和世界模型基准测试中进行了实验,并展示了作者的方法在生成指标上显著优于当前最佳方法。

1. Introduction

生成模型因其能够理解数据分布并生成内容的能力而获得了广泛关注,在图像和视频生成[1]、三维物体生成[16, 48]以及编辑[13]等领域取得了显著进展。在仿真领域,生成模型展现了创建逼真场景的巨大潜力,这对于训练和评估类似于自动驾驶车辆的安全关键型实体智能体[11, 44]至关重要。这一能力减少了对昂贵的手动现实世界建模的需求,促进了广泛的闭环训练和场景测试。此外,世界模型正在逐步探索中以理解和预测现实世界的动态特性,这对于仿真场景和视频生成至关重要。

尽管在自主驾驶领域的条件图像和视频生成方面取得了进展,现有方法主要集中在单一模态上,要么利用2D数据([44, 53]),要么利用3D数据([48, 52])。然而,一个真正具备能力的自主驾驶系统通常会整合多种传感器,包括相机和激光雷达。相机提供了丰富的纹理和语义信息,而激光雷达则提供了精确的三维几何细节。

这两种模态的结合可以提高感知准确性,因为它们互为补充([20, 24])。目前,联合模态生成的研究还非常初步。BEVWorld([51])进行了一些探索,但其生成的质量和可控性仍然难以与单模态领域的最新方法(SOTA)相媲美。

作者提出了一种全面的2D-3D生成框架HoloDrive,用于自动驾驶,该框架将街道视角下的2D和3D生成统一在一个高效的整体框架中。HoloDrive能够联合生成多视图摄像头和LiDAR数据,如图1所示。作者的框架扩展了最先进的2D和3D生成模型,使基于文本和边界框/地图条件生成真实街道场景成为可能。

图片

为了实现联合2D和3D生成,作者首先在2D生成模型中引入一个深度预测分支,并从3D LiDAR自然地获得监督信号。在此基础上,作者采用一种高效的BEV到Camera变换来对齐3D和2D空间,并引入一种Camera到BEV模块,该模块将丰富的2D语义先验信息引入到3D空间中。这些跨模态结构在生成过程中促进了两种模态之间的有效信息交换,并使整个模型能够端到端地训练。作者将联合pipeline应用于单帧生成和视频生成任务,并采用渐进式训练方法,结合视频域的额外多任务学习,以实现训练阶段的平滑过渡。

作者在NuScenes数据集[3]上进行了实验,该数据集提供了配对的多视图相机图像、LiDAR点云、文本描述以及地图布局等信息。作者的结果显示,通过整合联合2D-3D建模,HoloDrive在生成多视图相机图像和LiDAR点云的单帧及序列数据方面达到了业界最佳性能。

本文的主要贡献总结如下:

  1. 作者提出了一种新型框架HoloDrive,能够在给定文本和布局条件的情况下,联合生成在二维和三维空间中一致的多视图相机图像和LiDAR点云。作者 Proposal 在二维生成中增加额外的深度监督,并应用高效的Camera-to-BEV变换模型来对齐二维和三维空间,从而增强联合二维-三维生成建模能力,并进一步扩展到视频生成中。
  2. 作者的方法在生成质量上表现出色,能够忠实地遵循给定的条件以及实现二维-三维一致性,同时在单帧和视频生成方面都达到了最先进的性能。

2. Related Work2.1. Image Generation

图像生成是生成建模中最基本的话题之一,已经探索了各种方法。其中,通过逆向迭代随机过程来建模图像生成的扩散模型因其在竞争性训练稳定性和生成质量方面的优势越来越受到关注。造成这种现象的原因在于扩散模型中的精心设计选择,包括通过自动编码器[34]或级联模型[35]降低预测分辨率、更好的噪声调度器、无分类引导以增强控制能力等。最近,一些研究工作成功地将Transformer[42]在NLP领域中展示出的缩放能力转移到扩散模型中。

与自然图像相比,自动驾驶(AD)领域的图像存在固有的差异,即整齐的场景结构和多样的物体。为了弥补这些差异,利用布局信息来引导生成。例如,BEVGen [38] 通过将所有布局投影到BEV空间来参考3D信息。相反,BEVControl [50] 则是从将3D坐标投影到图像视图开始,构建二维几何指导,而MagicDrive [6] 结合了这两种方法的优点。最近,Drive-WM [44] 将像素 Level 的布局信息转移到潜在空间,并依赖统一嵌入来关注它们。作者的方法在此基础上进一步改进,引入了点云协同作用。

2.2.LiDAR Generation

LiDAR 点云生成近年来得到了探索,这是一项属于三维点云生成的任务。早期的工作利用变分自编码器(VAE)[18] 或生成对抗网络(GAN)[7] 对点云进行无条件生成 [2, 36]。LiDARGen [54] 利用了得分匹配能量模型,并从纯噪声中生成点云,视角采用球面投影图。为了更好地保持 LiDAR 场景的结构和语义信息,UltraLiDAR [48] 首次提出使用离散表示来建模 LiDAR 的分布。他们训练一个 LiDAR VQ-VAE [41] 来学习离散表示,并利用双向 Transformer  [4] 学习 LiDAR 场景离散 Token 的联合分布。

关于点云预测,一些方法利用过去 LiDAR 扫描来预测未来点云,在时间动态建模上基于 LSTM [45]、随机序列潜在模型 [46] 或三维空间时序卷积网络 [29]。4DOcc [16] 选择预测一个通用的未来三维占用量级数量,而不是直接预测未来点云。Copilot4D [52] 探索了未来 LiDAR 预测中的离散扩散模型,并结合了单一帧预测、未来预测和联合建模的训练目标。RangeLDM [12] 通过去噪 LiDAR 范围图的潜在特征来进行生成,并将这些图像通过霍夫投票投影到点云上以确保高质量的表示。然而,这些方法仅考虑了 LiDAR 点云的先验信息,缺乏语义和感知信息。在本工作中,作者提出的 HoloDrive 同时利用二维图像和三维点云的先验信息,促进了高质量点云的生成。

2.3. Joint Generation

BEVWorld [51] 首次尝试了相机和LiDAR联合生成,并提出了一种利用潜变量自动编码器内部射线投射模块的统一BEV潜在表示,然后通过降噪生成统一的BEV潜在表示。

然而,这种新设计的潜在空间并未用大规模数据进行训练,因此图像生成质量仍难以与基于大规模预训练模型微调的方法(如SD)相匹敌。作者提出的HoloDrive 在有效利用预训练图像生成模型的能力基础上,实现了2D-3D联合生成,并在生成质量上达到了最佳水平(SOTA)。

2.4.PredictiveWorldModel

预测世界模型,利用广义预测模型从序列数据中学习,为在视觉领域再现大语言模型(LLM)[39] 的巨大成功提供了潜在途径。在视觉领域,预测模型可以被视为视频生成的一种特殊形式,以往观察数据作为指导。进一步缩小至自动驾驶(AD)领域,DriveGAN [17] 和 GAIA-1 [11] 通过动作条件下的视频扩散模型学习了一种通用的驾驶视频预测器。

DriveDreamer [43] 引入了额外的三维条件和渐进式训练策略。GenAD [49] 通过构建更大的数据集来扩大模型规模。为了进一步提高预测能力,ADriver-I [14] 利用了大语言模型生成的抽象信号,例如动作和速度。

尽管上述方法主要从单目视频中学习,但最近,Drive-WM [44] 和 DriveDreamer-2 [53] 扩展了学习资源,涵盖了多视图视频。尽管这些方法取得了竞争性的结果,但仍不清楚这些模型是否 Aware 到三维世界。在此项工作中,作者开创了一条路径,旨在协同生成多视图视频和点云数据。

3. Method

图2展示了所提出Pipeline的整体框架,该Pipeline能够联合预测多视图视频和未来LiDAR点。除了基本的2D和3D生成模型外,还提出了两种新颖的跨模态结构:2D到3D结构和3D到2D结构,以实现两种模态之间的交互,并共同提升视频(或图像)和LiDAR生成的质量。对于多模态数据和模型, superscript  表示摄像头,superscript  表示LiDAR。

图片

3.1. Multi-view Image Generation

作者方法中的基本图像生成Pipeline遵循SD 2.1 [34]。给定原始图像 ,其中为视图索引,和分别为图像的高度和宽度,作者得到图像潜在特征 ,其中  是VAE编码器。它从随机高斯噪声  开始,通过U-Net模型  迭代去除噪声  步,最终得到干净的图像潜在特征 。跨视图注意力。借鉴Drive-WM [44]的做法,在扩散U-Net中的每个空间注意力块之后插入跨视图注意力块以实现多视图一致性。跨视图注意力块接受U-Net空间块的输出,并在不同视图间应用自注意力机制,然后通过可学习的混合器将输出合并回其输入中。

作者使用训练目标来训练模型。

3.2.LiDAR Generation

作者的方法通过离散表示学习生成LIDAR点云[41]。作者根据UltraLiDAR[48]训练了一个类似VQ-VAE的分词器。给定一个LIDAR点云观测值,作者利用编码器-解码器模型对其进行量化和重构。编码器是一个PointNet[32],后跟多个Swin Transformer块[25],将点云转换为BEV潜在特征,编码器的输出经过量化层以获得离散的tokens。解码器包含多个Swin Transformer块以及附加的可微深度渲染分支[52],用于 Voxel 重建。在推理过程中,当离散token解码为点云时,使用空间 Shortcut [52]来加速采样。

作者随后训练一个生成模型,能够生成多样化的 LiDAR 点云。不同于 UltraLiDAR [48] 只有条件无地生成 LiDAR 点云,作者提出了一种基于多通道 BEV 特征 (e^{(l)}) 的生成模型。BEV 条件特征可以是从数据集标注直接投影的 3D 方框和高清地图条件,也可以是从二维生成网络特征图中转换来的跨模态条件。训练目标定义为通过交叉熵损失重建原始输入。

VAE的水平通常为8。该网络的输出为,其中表示深度区间数量。给定深度预测和投影点云作为Ground Truth,作者计算深度损失,它是一个简单的交叉熵损失。

。作者的3D到2D模块将3D特征投影到2D视图上。具体来说,作者首先为每个相机创建一个类似漏斗形的点云。每个点是从其图像空间齐次坐标乘以其深度区间的实际距离计算得出的。通过解方程

在其中, 是通过   Mask 的鸟瞰图 Tokens,而   具有两个方向来建模 LiDAR Tokens 的分布,并且包含 Swin Transformer 块 [25]。作者采用了类似于 MaskGIT [4] 中采样过程的 LiDAR Tokens 采样算法,在该过程中,第  次迭代中的 Mask  Tokens 数量  遵循一个 Mask 调度器 ,并且   通过深度渲染的 tokenizer 解码器  被解码成 LiDAR 点云。

3.3. Joint Generation of Camera and LiDAR

如图2(c)和(d)所示,用于2D模型与3D模型之间交互的结构包括两个单向跨模态转换模块和一个深度监督模块。前者旨在提高生成元素的质量和跨模态一致性,而后者则有助于更好地进行3D感知。

深度监督。作者遵循BEVDepth [19]的方法,利用U-Net下采样块提取的图像特征来估计深度。所有下采样块的输出特征被调整到,然后进行拼接,其中表示缩放比例,在此尺度上,表示相机内参矩阵,表示从激光雷达空间到相机空间的旋转矩阵,表示从激光雷达空间到相机空间的平移向量,而则是在激光雷达空间中的椎体状点云。随后,作者使用抽样LiDAR生成模型的隐藏状态,并沿深度维度加权求和,最终得到。作者采用一个轻量级的 Adapter  [30] 注入这些抽样特征。类似地,类似于从二维到三维的部分,作者将投影特征与二维条件特征拼接在一起,形成更新版本的统一二维条件特征,作为式1中的更新版本。

 转 . 作者提出了一种新颖的  到  模块,该模块将来自  多视角生成模型的先验知识聚合到  空间中,从而提供周围环境的语义信息。作者使用点云池化操作(参照 BEVDepth [19]),将  模型中的多视图中间特征,即噪声潜特征,转换为  空间中的嵌入表示 。在训练过程中,依据公式 (1),作者从 U-Net 块中获取给定  条件下时间步长  的多视图中间特征 。利用权重 ,空间中的特征通过点云池化被转换为 BEV 空间的嵌入 。

联合训练与推理。作者基于所有训练目标之和进行联合训练阶段的优化,并通过平衡权重、和来进行优化。

4. Experiments

Temporal Modeling

时间生成架构。为了构建具有多模态视频生成的世界模型,作者通过在空间注意力层之后插入时间注意力层的方法来建模时间信息,参考了Drive-WM [44] 的做法。此外,作者也遵循Copilot4D [52] 的设计,在3D视频生成器中引入了一个因果 Mask 。

联合世界模型。给定过去的观测值  和 ,长度为  ,作者训练模型以预测未来  帧对应的观测值  和 。损失可以通过对所有  帧上的联合训练损失  进行平均来计算。作者扩展生成器的输入至真值和噪声图像潜在变量的拼接,即 ,其中  表示添加噪声的步骤, 是 2D U-net 的输入,而  是一个长度为  的二元 Mask ,用于在最后  帧中遮挡真值潜在变量。这里为了简化起见省略了时间索引。在三维方面,作者直接用真值替换 Mask  Token 以使预测任务得以进行。

多任务训练策略。作者的训练方法类似于最近的生成模型[5],即作者首先在单一模态任务上预训练模型,然后再针对联合训练任务进行微调。在联合训练阶段,模型被强制利用布局条件(例如,3D  Box 条件)和交互条件,而前者的预训练则完全在早期阶段完成。为了解决这一问题,作者在联合训练阶段提出了条件性舍弃策略。具体来说,在联合训练阶段,作者随机抑制单一模态中的布局条件。由于条件仅来自一个模态,因此模型自然被强制执行跨模态学习。另一个对作者渐进式训练产生重要影响的因素是单一模态训练与联合训练之间的差距。作者发现,在交互方面的简单舍弃策略足够有效,这意味着联合训练阶段可能以一定的速率回到单一模态训练阶段。结合上述两种策略,作者的联合训练阶段可以视为进行多任务学习,在实验部分,作者展示了这一点对视频生成联合训练的重要性。

4.1. Settings

数据集。作者的实验基于NuScenes [3] 数据集,因为该数据集包含了多视角图像、激光点云、场景描述文本、框标注以及地图信息。该数据集包含用于训练的700个视频和用于验证的150个视频,每个视频大约持续20秒,并包含约40帧关键帧。每帧关键帧包括由周围视图摄像头捕捉的6张图像和由激光雷达捕捉的点云。按照BEVFormer [22] 使用的规范,nuScenes中常见的10类三维物体用不同的颜色进行编码,并投影到图像空间。Baseline 方法。作者分别针对多视角图像生成和激光点云生成任务使用了 Baseline 方法。对于图像生成部分,作者将现有的一些多视角图像生成方法应用于自动驾驶场景以进行对比。对于激光点云部分,作者重现了UltraLiDAR [48] 并将其作为 Baseline 方法。

训练方案。作者设有三个训练阶段。第一阶段从SD 2.1开始,训练一个跨视图相机生成模型,并新增了关于跨视图、图像条件以及深度估计的模块。第二阶段从头开始训练LiDAR生成模型。第三阶段从前两个阶段继续训练联合生成模型。前两个阶段的实验在16块V100(32GB)GPU上进行,最后一个阶段则在8块A800(80GB)GPU上进行。图像被调整为的大小,尽量保持原图像的比例。LiDAR点被限制在范围内。对于预测模型,作者使用长度为8的片段,过去观察的数量为4。条件丢弃率和联合丢弃率均设定为30%。

评价指标。生成的图像和视频通过Frechet Inception Distance (FID) [9]和Frechet Video Distance (FVD) [40]进行评估。作者采用mAP(平均平均精度)来衡量生成的准确性,通过比较生成结果的GT位置和检测到的位置来进行测量,并根据 Baseline 方法的评估规则选择BEVFusion [26]或BEVFormer [22]作为检测模型。生成的LiDAR点则通过Chamfer距离、L1误差(L1均值/中位数)、相对L1误差(绝对相对均值/中位数)进行评估,遵循4D-Occ [16]的做法。

4.2. Main Results

图像生成中的深度估计。深度对于图像和点云之间的跨模态信息转换至关重要。图6展示了用作 Backbone 网络的扩散U-网络的深度估计能力。多视图图像生成。作者将作者的方法与其他多视图图像生成方法(包括目前最先进方法Drive-WM [44])进行了比较,发现作者的HoloDrive在所有 Baseline 方法中现实感最高,准确率仅次于Drive-WM。FID和mAPs的结果见表1。定性结果如图4所示。

图片

图片

图片

单帧 LiDAR 生成。表3 显示了作者方法与最新的 LiDAR 生成方法 UltraLiDAR [48] 的量化比较结果。作者根据原论文的细节重新实现了无条件和有条件版本。作者报告了两种类型方法的结果: 和 (联合训练的 2D-3D)。3D 条件(3D 方框和高清地图)显著提高了 LiDAR 质量的各项评分。将 2D 模型中的 2D 特征整合到作者的 3D 模型中,明显提升了 C-D 度量、L1 均方误差和 AbsRel。最后,在 2D 和 3D 模型之间进行交互作用后,作者的方法展示了更好的 LiDAR 生成质量,如图5 所示例子中的点云细节中树木和建筑物的显示效果。

图片

图片

跨模态一致性。作者提出的一种联合2D-3D生成方法的一个明显优势在于跨模态的一致性。如图3所示,生成的2D多视图街道场景与3D激光雷达点云高度一致,这可能是由于训练和推理过程中两种模态之间频繁的交互所导致的。

图片

LiDAR 预测。作者遵循 Copilot4D [52] 的实现细节来构建作者的三维世界模型。值得注意的是,在序列生成过程中,作者将ego车设为坐标原点,而非固定在一个参考系中。实验结果如表5所示,作者的重实现取得了与Copilot4D相类似的性能,并且优于先前的方法。

图片

预测性世界模型。作者还与其他方法进行了比较。作者遵循了 Drive-WM [44] 的评估流程。特别地,对于 NuScenes 中的每个验证视频,作者以自回归的方式生成相应的 40 帧 [1],并选择其中 16 帧进行评估。结果如表2 所示。作者的方法在 DriveDreamer-2 [53] 上除了 FVD 之外优于其他方法,这在一定程度上归因于 SVD 的使用:[53] 中的消融研究显示,仅仅将 SD1.5 更改为 SVD 可以显著降低 FVD,从 340.8 降至 94.6。

图片

#25年1月理想MEGA有望首次月销超小鹏X9

整个2024年,MEGA任何一个月都比X9月销少。

图片

MEGA 24年销量走势分为三个大阶段,3月首发交了3229后,连续4个月单调下降,自6月开始,如果9月卖得少点,相当于连续7个月单调上升。9月“异常”上升可能是由于当时8月底9月初,新的置换补贴出台,导致9月异常猛了一把,单月销量处于理想历史第二高的水平,91011月,理想整体连续三月单调下滑,12月靠第一次推3年0息又“异常”猛了一把。

X9领先MEGA幅度,大致分为4个阶段

第一阶段MEGA首发期遇到X9第三个月交付,二者都在3月来到了年内交付最高点,X9领先MEGA 22.21%。

第二阶段 X9 维持了3个月领先MEGA120%,最高单月领先186%,这时的主要驱动力是MEGA不断下滑,X9其实自己也在降,但MEGA降得太快了。

第三阶段 9-11月 X9领先MEGA 60%左右,既MEGA/X9在差距在缩小。主要推动力是MEGA明显上升,X9微降。但还是可以认为X9销量明显好于MEGA。

第四阶段 12月 X9仅比领先MEGA 9.88% 可以认为局限于12月,二周销量同级别,主要驱动力是MEGA暴增,X9微降。

因为理想12月有特殊的对于自己而言首发3年0息政策,所以光看12月,我们还不能就断定MEGA销量就可以和X9同级别了。

但是25年头两周的上限数据,却显示MEGA有很大机会在25年1月历史首次月销超X9。

图片

此前,MEGA仅在12.9-15的时候周销超了X9 0.34%,但是25年的头两周MEGA周销却分别超X9 14.44%与29.46%。

MEGA1月头两周周销就是11月月初的水平,1月第二周有12月最后一周70%,这是一个较为异常的表现。X9 1月头两周低于11月水平,1月第二周为12月最后一周的40.6%,这是一个较为正常的跌幅。

可以认为,现阶段的数据显示MEGA处于一个良好趋势之中,不过看起来总量级别依然处于月销1000,暂时看不到月销2000。

处于高端MPV市占率很高,在高端MPV开始逐渐破圈,没有进一步破圈的状态。

作为对比L789的上升趋势是明显不如MEGA的,从MEGA跌入谷底的6月来看,不考虑10月较9月的跌幅,L789都在8月11月都出现了环比下降。

并且MEGA 12月销量较9月提升了42.78%,L79 12月较9月仅分别提升3.42%,2.03%。L8提升了20.57%。L789一共提升了7.48%。可以定性描述L79 12月较9月几乎没有提升,L8有提升,MEGA有明显提升。

图片

从6月开始,L789环比趋势是完全一致的,合情推测L789销量影响因子是类似的。

而MEGA较L789走出了独立行情,导致这个的原因可能是因为NPS发酵/MEGA参与了大量活动的官方赞助,既有品宣作用,又有利于获客。

#xxx

#xxx
#xxx
#xxx
#xxx

http://www.ppmy.cn/embedded/155824.html

相关文章

HTTPS与HTTP:区别及安全性对比

目录 一、基础概念 二、安全性对比 1. 加密传输 2. 身份验证 3. 数据完整性 4. 端口 5. 浏览器展示方式 三、使用场景与性能 1. 使用场景 2. 性能开销 四、成本与维护 五、搜索引擎优化(SEO) 六、案例分析 七、隐私保护与中间人攻击 八、…

PHP异步非阻塞MySQL客户端连接池

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons:JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram,自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ? 5 IDEA必装的插件&…

Rust语言的软件开发工具

Rust语言的软件开发工具及其应用 引言 Rust作为一门相对年轻的系统编程语言,凭借其安全性、高性能和并发性,逐渐在开发者中赢得了广泛的认可。Rust不仅适用于系统级编程,还可以用于Web开发、嵌入式编程以及数据科学等领域。为了支持Rust语言…

会话_JSP_过滤器_监听器_Ajax

第8章 会话_JSP_过滤器_监听器_Ajax 8.1 会话 8.1.1 会话管理概述 1、为什么需要会话管理 HTTP是无状态协议: 无状态就是不保存状态,即无状态协议(stateless),HTTP协议自身不对请求和响应之间的通信状态进行保存,也就是说&…

【机器学习实战入门】使用OpenCV和Keras的驾驶员疲劳检测系统

嗜睡驾驶者警报系统 防止司机疲劳驾驶警报系统 中级 Python 项目 - 司机疲劳检测系统 疲劳检测是一种安全技术,能够预防因司机在驾驶过程中入睡而造成的事故。 本中级 Python 项目的目标是建立一个疲劳检测系统,该系统将检测到一个人的眼睛闭合了一段时…

一个产品从开发到上线需要几个步骤

一、需求分析与规划 1. 需求收集 与客户、市场团队、用户等进行沟通,收集对产品的功能、性能、外观、用户体验等方面的需求。可以通过问卷调查、用户访谈、竞品分析等方式获取需求信息。 2. 需求分析 对收集到的需求进行详细分析,明确需求的优先级、…

Leetcode——链表:143.重排链表

题目 思路 首先考虑特殊情况,链表为空,或者链表只有一个元素,此时直接返回 找到中间位置,将后半部分的链表翻转,得到新链表,将后半部分链表的节点交替插入原链表 寻找链表中间节点 使用快慢指针法 设置…

文档解析:PDF里的复杂表格、少线表格如何还原?

PDF中的复杂表格或少线表格还原通常需要借助专业的工具或在线服务,以下是一些可行的方法: 方法一:使用在线PDF转换工具 方法二:使用桌面PDF编辑软件 方法三:通过OCR技术提取表格 方法四:手动重建表格 …