51c自动驾驶~合集48

devtools/2025/1/21 1:28:48/

我自己的原文哦~     https://blog.51cto.com/whaosoft/13133866

#UDMC

考虑轨迹预测的统一决策控制框架

论文:https://arxiv.org/pdf/2501.02530

代码:​​https://github.com/henryhcliu/udmc_carla.git​​

1. 摘要

当前的自动驾驶系统常常在确保安全和遵守交通规则的同时,难以平衡决策制定和运动控制,特别是在复杂的城市环境中。现有方法由于分别处理这些功能,可能导致效率低下和安全妥协。为应对这些挑战,我们引入了UDMC,这是一个可解释且统一的4级自动驾驶框架。UDMC将决策制定和运动控制整合为一个单一的最优控制问题(OCP),考虑了与周围车辆、行人、车道和交通信号的动态交互。通过采用创新的势能函数来模拟交通参与者和规定,并结合专门的运动预测模块,我们的框架增强了道路安全性和规则遵守性。集成设计允许实时执行适合各种驾驶场景的灵活操作。在CARLA中进行的高保真模拟展示了该框架的计算效率、鲁棒性和安全性,与各种基线模型相比,驾驶性能更优。

2 创新点

本工作提出一个名为UDMC的全面框架,它整合了通过APF进行的交通对象特征提取,以及通过IGPR对交通参与者进行的运动预测。碰撞避免和遵守交通规则被制定为OCP中的软约束,配有精心设计的PFs。我们的方法同时实现了高层决策和低层控制,从而为城市驾驶提供了一个计算效率高的流程。我们将在四个具有挑战性的城市驾驶场景中,将所提出的方法与基于规则的方法以及名为InterFuser的学习型方法进行比较。同时,也进行了一系列的消融模拟和基准评估。结果清楚地展示了UDMC所获得的驾驶行为的有效性、鲁棒性和安全性,同时也实现了高成功率和稳定的通勤时间表现。由于我们的工作提供了一个通用的自动驾驶框架,这个框架中的不同模块可以根据特定的驾驶应用进行适当修改,这得益于该框架的兼容性和通用性。作为我们未来工作的一部分,UDMC可以在没有大量适配工作的前提下,部署在配置较低的工业计算机设备上。

3.UDMC框架概述

3.1 框架结构

UDMC(Unified Decision-Making and Control Framework for Urban Autonomous Driving with Motion Prediction of Traffic Participants)框架是一个针对城市自动驾驶的决策与控制一体化框架。它将决策制定和运动控制整合到一个单一的最优控制问题(OCP)中,考虑了与周围车辆、行人、道路车道和交通信号的动态交互。通过使用创新的势函数来模拟交通参与者和规则,并结合专门的运动预测模块,该框架增强了道路安全性和规则遵守性。这种集成设计允许实时执行适合不同驾驶场景的灵活操作。在CARLA高保真度模拟中,UDMC框架展示了其计算效率、鲁棒性和安全性,与各种基线模型相比,驾驶性能更为出色。

3.2 关键技术与方法

UDMC框架的关键技术与方法包括以下几个方面:

势函数(Potential Functions)

UDMC框架采用了创新的势函数来模拟交通参与者和交通规则。这些势函数能够将交通环境中的各种因素,如车辆、行人、车道标记和交通信号等,转化为对自动驾驶车辆的控制约束。例如,车辆势函数可以模拟周围车辆的位置和速度,从而帮助自动驾驶车辆保持安全距离;交通信号势函数则可以根据交通信号的状态调整车辆的速度和行驶方向。通过将这些势函数整合到最优控制问题中,UDMC框架能够实时生成适合不同驾驶场景的灵活操作。

运动预测模块(Motion Prediction Module)

UDMC框架结合了基于插值的高斯过程回归(IGPR)的运动预测模块,用于快速可靠地预测周围车辆和行人的运动。IGPR是一种非参数贝叶斯学习方法,能够根据历史状态记录预测未来的状态。在UDMC框架中,IGPR模块利用周围车辆和行人的历史轨迹数据,预测其在未来一段时间内的运动趋势。这些预测结果为自动驾驶车辆的决策提供了重要的参考,使其能够提前做出合理的决策,如变道、减速或避让等。

最优控制问题(Optimal Control Problem, OCP)

UDMC框架将决策制定和运动控制整合到一个最优控制问题中。该问题考虑了自动驾驶车辆的动力学模型、环境约束和目标函数,通过求解最优控制序列来实现车辆的自主驾驶。在OCP中,目标函数通常包括行驶时间最小化、能耗最小化和乘坐舒适性最大化等。同时,环境约束包括道路边界、车道标记、交通信号和周围车辆等因素。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。

高保真度模拟测试(High-Fidelity Simulation Tests)

为了验证UDMC框架的性能,研究者在CARLA模拟器中进行了大量的高保真度模拟测试。CARLA是一个开源的城市驾驶模拟器,能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中,UDMC框架展示了其在不同驾驶场景下的计算效率、鲁棒性和安全性。与各种基线模型相比,UDMC框架在车流跟随、超车、环岛和交叉路口等场景中均表现出更优越的驾驶性能。这些测试结果证明了UDMC框架在实际应用中的可行性和有效性,为自动驾驶技术的发展提供了有力的支持。

4. UDMC框架的关键技术详解

4.1 交通参与者运动预测

交通参与者运动预测是UDMC框架中至关重要的环节,它直接影响自动驾驶车辆的决策和控制。UDMC框架采用基于插值的高斯过程回归(IGPR)来实现这一功能。IGPR作为一种非参数贝叶斯学习方法,能够根据有限的历史轨迹数据,预测交通参与者未来的运动状态。具体来说,IGPR通过构建一个高斯过程模型,将历史轨迹数据作为输入,输出预测的未来位置和速度。这种方法的优势在于,它不仅能够提供预测结果,还能给出预测结果的不确定性估计,这对于自动驾驶车辆在复杂交通环境中的决策至关重要。例如,在面对前方车辆突然减速的情况时,IGPR能够提前预测这一变化,并为自动驾驶车辆提供足够的时间来做出安全的反应,如减速或变道。

4.2 人工势场法的应用

人工势场法(APF)在UDMC框架中用于模拟交通参与者和交通规则对自动驾驶车辆的影响。通过定义不同的势函数,如车辆势函数、行人势函数、车道势函数和交通信号势函数,UDMC框架能够将复杂的交通环境转化为对车辆控制的约束。这些势函数通过计算自动驾驶车辆与周围环境之间的相互作用力,引导车辆做出合理的决策。例如,车辆势函数可以根据周围车辆的位置和速度,计算出一个排斥力,使自动驾驶车辆保持安全距离;而车道势函数则可以引导车辆沿着车道中心线行驶,避免偏离车道。这种基于势场的方法不仅简化了决策过程,还提高了系统的实时性和适应性。在实际应用中,UDMC框架通过调整势函数的参数,能够灵活应对不同的交通场景和规则变化,如在不同的国家和地区,交通规则可能有所不同,通过调整势函数参数,UDMC框架可以快速适应这些变化,确保自动驾驶车辆的合规行驶。

4.3 最优控制问题的构建与求解

UDMC框架将决策制定和运动控制整合到一个最优控制问题(OCP)中,这是实现自动驾驶的关键步骤。OCP的构建涉及到多个方面,包括自动驾驶车辆的动力学模型、环境约束和目标函数。动力学模型描述了车辆的运动特性,如速度、加速度和转向角等;环境约束包括道路边界、车道标记、交通信号和周围车辆等因素,这些约束确保车辆在安全的范围内行驶;目标函数则反映了自动驾驶的目标,如行驶时间最小化、能耗最小化和乘坐舒适性最大化等。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通环境中安全、高效地行驶。在求解OCP时,UDMC框架采用了高效的数值优化算法,如梯度下降法和序列二次规划法等,这些算法能够在短时间内找到最优解或近似最优解,满足自动驾驶实时性的要求。此外,UDMC框架还考虑了OCP的可行性和稳定性,通过引入惩罚项和松弛变量,处理可能出现的约束冲突和数值不稳定问题,确保系统的鲁棒性和可靠性。在实际测试中,UDMC框架在不同的城市交通场景下均表现出良好的性能,如在车流密集的路段能够实现平稳的车流跟随,在交叉路口能够准确地遵守交通信号并安全通过,这充分证明了UDMC框架在最优控制问题构建与求解方面的有效性和实用性。

5. UDMC框架的性能评估

5.1 仿真环境与测试场景

UDMC框架的性能评估主要在CARLA模拟器中进行,CARLA是一个开源的城市驾驶模拟器,能够提供逼真的城市交通场景和详细的车辆动力学模型。在模拟测试中,UDMC框架面临多种复杂的交通场景,包括但不限于:

  • 车流跟随:在多车道的公路上,自动驾驶车辆需要跟随前方车辆,同时保持安全距离,并根据车流的速度变化进行加速或减速。
  • 超车操作:在合适的道路条件下,自动驾驶车辆需要判断何时进行超车操作,同时确保不会对周围车辆造成危险。
  • 环岛驾驶:环岛交通场景中,车辆需要识别环岛内的交通规则,如让行标志,同时处理与其他车辆和行人的交互。
  • 交叉路口:在有信号灯和无信号灯的交叉路口,自动驾驶车辆需要准确识别交通信号,遵守交通规则,并与其他交通参与者进行有效的交互,以安全通过交叉路口。
  • T型路口:在T型路口,车辆需要根据交通标志和道路情况,决定是直行、左转还是右转,并在必要时进行停车和让行。

这些测试场景涵盖了城市自动驾驶中常见的各种情况,能够全面评估UDMC框架在不同环境下的性能表现。

5.2 性能指标与结果分析

为了评估UDMC框架的性能,研究者定义了一系列关键的性能指标,包括但不限于:

  • 安全性指标:包括碰撞次数、安全距离保持情况等。在所有测试场景中,UDMC框架展现出极高的安全性,碰撞次数几乎为零,且始终能够保持与周围车辆和行人的安全距离。
  • 规则遵守性指标:衡量车辆遵守交通规则的程度,如红绿灯遵守率、车道保持准确性等。UDMC框架在这一指标上表现优异,红绿灯遵守率达到100%,车道保持准确性高达98%以上。
  • 驾驶效率指标:包括平均行驶速度、行程时间等。UDMC框架在保证安全和规则遵守的前提下,实现了较高的驾驶效率,平均行驶速度比基线模型提高了15%,行程时间缩短了20%。
  • 计算效率指标:评估框架的计算资源消耗,如CPU使用率、内存占用等。UDMC框架在实时执行中表现出良好的计算效率,CPU使用率控制在合理范围内,内存占用稳定,能够满足实时决策和控制的要求。
  • 鲁棒性指标:测试框架在面对传感器噪声、环境变化等不确定因素时的稳定性。UDMC框架在引入不同程度的传感器噪声和环境干扰后,依然能够稳定运行,鲁棒性得到了充分验证。

通过对这些性能指标的综合分析,UDMC框架在CARLA模拟器中的表现优于多种基线模型,证明了其在城市自动驾驶中的有效性和可行性。这些结果不仅展示了UDMC框架的技术优势,也为未来自动驾驶技术的进一步发展和实际应用提供了有力的支持。

6. UDMC框架的局限性与挑战

6.1 当前存在的问题

尽管UDMC框架在城市自动驾驶领域取得了显著的成果,但仍存在一些局限性。首先,该框架在处理极端天气条件下的传感器数据时可能会遇到挑战。例如,在暴雨或大雪天气中,传感器的精度可能会降低,从而影响对周围环境的准确感知。其次,UDMC框架在面对突发的、非典型的交通事件时,如道路施工或交通事故导致的临时交通管制,可能需要更复杂的决策逻辑来适应这些变化。此外,虽然UDMC框架在模拟环境中表现出色,但在实际道路测试中,还需要进一步验证其在不同地区和不同交通规则下的适应性。最后,系统的计算资源消耗在处理大规模交通场景时可能会增加,这需要更高效的算法来优化资源分配。

6.2 未来研究方向

针对UDMC框架的局限性,未来的研究可以从以下几个方向展开。首先,研究如何提高传感器在恶劣天气条件下的可靠性和准确性,例如通过开发新型传感器融合技术或改进传感器校准算法。其次,开发更灵活的决策模块,使其能够快速适应突发的交通事件和临时的交通规则变化。此外,进一步优化算法以减少计算资源的消耗,特别是在处理复杂的城市交通场景时,确保系统的实时性和高效性。最后,加强UDMC框架在实际道路环境中的测试和验证,收集更多的实际数据,以改进模型的鲁棒性和适应性。通过这些研究方向的探索,UDMC框架有望在未来实现更广泛的应用和更高的性能表现。

7. 总结

UDMC框架作为城市自动驾驶领域的一项创新性研究成果,通过将决策制定和运动控制整合到一个统一的最优控制问题中,有效地解决了传统自动驾驶系统在复杂城市交通环境中面临的诸多挑战。该框架利用势函数模拟交通参与者和规则,结合运动预测模块,实现了对周围环境的准确感知和预测,从而为自动驾驶车辆提供了安全、高效且符合交通规则的行驶策略。在CARLA模拟器中的高保真度测试进一步验证了UDMC框架的优越性能,其在安全性、规则遵守性、驾驶效率、计算效率和鲁棒性等关键指标上均表现出色,为自动驾驶技术的未来发展提供了有力的技术支持和理论依据。尽管存在一些局限性,如在极端天气条件下的传感器数据处理、面对突发交通事件的决策适应性以及实际道路测试中的地区适应性等,但通过未来的研究和优化,UDMC框架有望克服这些挑战,推动自动驾驶技术在城市环境中的广泛应用,实现更加智能化、安全化的交通出行。

#Uber端到端:端到端可解释神经运动规划器

Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., & Urtasun, R. (2019). End-To-End Interpretable Neural Motion Planner.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA. https://doi.org/10.1109/cvpr.2019.00886.

本文采用了轨迹采样+cost map prediction的方式实现learning based planning方案。

网络的输入是lidar cloud point and hp map, 然后通过cnn卷成feature最后接MLP进行预测。预测有两个部分,可以理解成感知任务和规划任务。其中感知任务包括了3D detection and future motion forcasting. 规划的任务则是预测稠密的cost volumes. 此外这个输入的特征空间还带有时序的信息,通过融合多帧的感知信息,然后进行cat组成了存储时序信息的features。规划任务是预测稠密的cost volume, 不过文章提到预测这个东西主要靠的是gt轨迹, 我们希望预测到gt附近区域是cost比较低的,但是这个奖励太稀疏了,所以单纯的利用gt信息学习是很困难的,所以额外的通过两个感知任务帮忙调整感知backbone输入,这样也可以提升planning的学习效果,原文的表达如下:“we introduce an another perception loss that encourages the intermediate representations to produce accurate 3D detections and motion forecasting. This ensures the interpretability of the intermediate representations and enables much faster learning。”

此外 HDmap上存储了各种道路环境的语义信息:“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs.”这些道路,十字路口,车道线以及红绿灯等静态道路元素也被提取出来作为cost map中的静态元素,这些东西被铺进多个图层,也生成了M个通道,最后和lidar point cloud上提取出来的T个时间维度的信息组合在一起给到后面的planning使用。

有了这个cost map, 下面通过螺旋曲线的采样生成planning anchor, 将这些anchors铺到cost map上面找cost最低的轨迹。

文章号称有以下三个优势:

  1. 具备可解释性和多模态能力,从后面的数据来看,可解释性来自cost map的高低,能够有效可视化出来碰撞或者违背道路交通规则的区域。此外额外的两个感知任务3d detection and motion forcasting也能提供中间信息的可视化做到一定的可解释性。
  2. 能够进行联合训练,避免了信息损失。
  3. 能够处理不确定性,从后面看不确定性的处理也是在cost map上体现出来的,cost map上出现了非凸的low cost区域用于表达多种驾驶可能性。不过这个证明有点弱,仅仅是出一张有多模态决策的图还是远远不够的,本文还是缺乏充足的理论和实验论证这里的网络设计是可以保证多模态的。

objective

planning模块的目标是将采样获得trajectory铺进cost volume中,从中找到cost最低的轨迹作为最佳轨迹:

图片

而轨迹的costing方式则是则是通过从cost map中索引voxel-wise的cost进行计算的。感知的输入是H,W,Z维度的lidar cloud points, 同时为了考虑时序上的动态agents的信息,雷达点云信息还要融合多帧的时序结果,在Z维度叠起来,H,W,ZT. 另一方面,Wiley考虑道路环境元素,本文给各个道路元素都准备了一层通道,包括road, intersections, lanes, lane boudaries, and traffic lights. 原文表达是“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs. Similar to [5], we rasterize the map to form an M channels tensor, where each channel represents a different map element, including road, intersections, lanes, lane boundaries, traffic lights, etc.”所以维度变成H,W,(ZT+M).

感知backbone是个CNN,作为下面两个头的输入,其中感知头预测bounding box and motion forcasting. cost volume头预测cost volume, 这里主要看下cost volume的预测。这里采用了max margin loss, gt是人驾轨迹。loss希望区分人驾轨迹的区域和其他区域,人驾轨迹的地方就是cost低的地方:“The intuition behind is to encourage the ground-truth trajectory to have the minimal cost, and others to have higher costs.”

图片

c表示cost, d表示轨迹距离,gamma表示traffic rule violation.

在负样本采样中,需要采样大量的偏移人驾轨迹的曲线,这里除了用planning anchor采样逻辑外,还对起点状态做了一个轻微扰动:“except there is 0.8 probability that the negative sample doesn't obey SDV's initial states, e.g. we randomly sample a velocity to replace SDV's initial velocity.”​

planinng anchor

横向采用螺旋曲线进行采样:

图片

纵向则是采用了constant accleration直接采样加速度,非常粗糙。

文章还提到了一点,“Note that Clothoid curves cannot handle circle and straight line trajectories well, thus we sample them separately. ”这个螺旋曲线不能表达直线和圆形,所以直行和掉头要出问题,所以额外单独采样,他们的采样比例是:“The probability of using straightline, circle and Clothoid curves are 0.5, 0.25, 0.25 respectively.”​

experiment

实验关注L2 distance, collision rate, and lane violation rate这几个指标,然后做了几个对比实验:

  • Ego-motion forecasting (Ego-motion),仅用ego motion 作为输入
  • Imitation Learning (IL):imitation is all you need, 用纯粹imitation学习
  • Adaptive Cruise Control (ACC):没有细说怎么处理,不过从后面的实验结果分析上来看,应该是加了lane violation的loss
  • Plan w/ Manual Cost (Manual): 人工设计cost

对比结果如下:

结论就是:“Egomotion and IL baselines give lower L2 numbers as they optimize directly for this metric, however they are not good from planning perspective as they have difficulty reasoning about other actors and collide frequently with them.”

然后对比其他几个方面的对比结果。包括联合训练(所谓联合就是是不是要感知任务和规划任务一起训),输入的时序融合长度,是否确实gamma penalty等等:

#从10到100的地平线

近期,智驾行业频繁出现中高阶的大项目定点。

据悉,某头部主机厂的一个中高阶大项目定点被地平线生态所斩获,这个大项目定点的车型数量达到了十个左右。

大项目频繁出现的原因是主机厂都在筹备智驾普及大战。众所周知,主机厂从卷电动调转枪口卷智驾。一位主机厂朋友表示,大家都在积极备战,25年将会是传统主机厂卷智驾最热闹的一年。

1. 智驾普及大战

众所周知,智驾行业是一年一个变化,25年最大的看点大概是两条线。

一条线是中高阶智驾的下沉普及;另外一条线是端到端2.0落地的竞争,也就是VLA量产上车。

引发智驾下沉普及的鲇鱼是比亚迪,比亚迪发起了声势浩大的智驾普及大战。比亚迪的动作凶猛,近乎全系车型要上中阶或高阶的智驾方案,10W出头的车型上都要上带高速NOA、记忆行车的中阶方案。

一位头部主机厂的人士表示,比亚迪国内销量第一,在C端用户影响力大,也是众多国内主机厂对标的对象。比亚迪卷智驾,那么几乎所有的主机厂都要跟进。

这意味着智驾正式从技术探索阶段过度到了智驾普及阶段。

在这场声势浩大的智驾普及战中,传统主机厂将不再是像过去几年一样在零星的个别车型上搭载中阶或高阶智驾、采用高定价的选配策略,而是近乎全系车型甚至会采取激进的标配策略。

这就使得许多主机厂产生了一个“烦恼”:面临几十款车型如何量产智驾的问题。

在以前,传统主机厂都是对旗下的个别车型上搭载中阶或高阶的智驾方案,量产的车型并不多。而现在是近乎价位10W以上的车型都要上中高阶的方案,对于一些拥有几十上百款车型的传统主机厂来说,如何做好智驾的量产是个大问题。

一些传统主机厂已经开始调整思路,比如,某头部车企将一个车型平台交给一家地平线生态合作伙伴来做。

在过去,传统主机厂喜欢分散式的选择供应商,一个车型平台会交给几个供应商来做。现在则是由之前分散式的选择智驾供应商的方式,转变为打包整个车型平台交给一个或两个智驾供应商来做。

这样做的目的除了能够降本卷智驾之外,另外很重要的原因是能在量产中以及后续的OTA能够很好的一致性管理。

当国内主机厂调整枪口卷智驾,意味着几百个车型的量产需求。这么庞大的一个量产需求,需要一个强大的生态系统才能接得住。

图片

(征程6系列定点超100款中高阶智驾车型)

目前,国内能接住的凤毛麟角,地平线或许是最有潜力的那个。

第一,地平线生态的合作伙伴群体规模庞大,从软件算法到硬件的域控、传感器,应有尽有;第二,地平线以及生态伙伴的产品线覆盖全场景,无论低阶、中阶还是高阶的需求。

所以,在传统主机厂的智驾普及战略中,地平线成了绕不开的选择。而且,基于地平线的J6一代芯片做的智驾方案,在性能和成本上非常均衡,契合了传统主机厂对智驾普及的战略需求。

这也是为什么24年地平线的“朋友圈”和定点疯狂增长的原因,不仅是传统主机厂,新势力在智驾普及战略上也是做出了一样的选择。

新势力车型产品从中高端向中端以下市场下沉,在残酷的汽车价格战背景下,在智驾上不再追求 “自产自销”,开始采取务实灵活的策略——“谁适合就用谁”。理想和蔚来都选择了地平线来做智驾普及。

一位业界朋友表示,25年的出货量要爆,这波智驾普及的趋势,地平线是大赢家,斩获的中阶定点项目最多。

2. 智驾的技术拐点

VLA被业界视为将高阶智驾的技术从“可用”推进到“好用”的重要拐点。

VLA大致可以划分为1.0、2.0、3.0的三个阶段。

在VLA1.0阶段,即端到端和视觉语言模型双系统初步融合阶段,提升智驾系统的对环境的理解能力;VLA2.0阶段,即深度融合的ONE MODEL,在提升智驾系统对环境空间感知理解能力的同时,实现根据感知直接生成运动规划和决策;VLA3.0阶段,即实现拟人的推理能力,类似于GPT-4o一样多轮推理。

从技术迭代上来看,智驾不久将迎来自己的GPT时刻。

过去十几年智驾行业是起起落落,有过浮躁红火,有过冷清低谷。不过,这一回的技术拐点和以前不一样,行业是第一次能够看到清晰可实现的“攀上珠峰”的技术路线图了,整个行业的商业价值也会出现变化的拐点。

正是基于智驾技术进步的路线图和节点,地平线创始人余凯认为智驾三年时间行业大局可定,并预测整个智驾产业将实现“3年脱手开,5年闭眼开,10年随心开”的目标。

地平线在25年也将量产自己的高阶智驾方案HSD(Horizon SuperDriveTM)。地平线的HSD一上来就奔向了端到端VLA,瞄准了未来两三年实现“脱手开”的战略目标。

图片

(HSD系统基本泛化了中国主要地形城市)

一位体验过HSD的业界朋友评价,苏箐出手非常精准犀利,对未来几年智驾技术迭代变化看的很透彻,出手就是抢攻技术制高点。

25年对于地平线来说是一个重要的拐点,迎来在低阶、中阶、高阶上的全面爆发的一个新阶段。

不过,虽然地平线在高阶上软硬结合更加深化,但是地平线对自身的定位仍旧是Tier 2。有了生态,就是一片森林,没有生态,就是一棵树,地平线创始人余凯相信的是森林而不是一棵树木。

地平线对Tier 2和Tier 1的边界有着清晰的认知,重心放在如何撑起整个生态的高度上。

24年地平线生态的合作伙伴迎来丰收的繁荣期,很重要的一个原因就是生态高度上了一个台阶。

众所周知,24年的智驾行业在资本市场遇冷,业内许多智驾公司融资困难。不过,有一些智驾公司仍旧受到资本的追捧,不仅一轮融资就拿到几个小目标,而且甚至一年实现几轮融资,比如轻舟、鉴智机器人、易航等。

这些都是地平线生态的智驾公司,之所以能在资本降温的时代里还能频繁融到钱,一个很重要的原因是:在定点项目上斩获丰盛。

24年下半年,传统主机厂掀起了一波密集的中阶智驾项目招标小浪潮,为应对智驾普及大战做准备。这一波的中阶项目,很大一部分被地平线生态的智驾公司拿到了。

手里的项目多了,就要招兵买马扩充技术力量,资本也很聪明,看到斩获丰盛的智驾公司就追上去加码子弹粮食,让这些公司跑的更快一些。

在这场智驾普及大战之中,地平线生态的智驾公司频频斩获定点拿单,成为各大主机厂的重要帮手。

地平线生态的智驾公司各自推出了差异化的智驾方案,比如,轻舟在J6M上开发出一套轻量级城区NOA的方案,成本便宜,满足了主机厂想把高阶智驾下沉和降本的需求;鉴智基于自己研发的视觉3D感知的算法能力,推出双目立体视觉系统,获得国产和合资主机厂的青睐。

主机厂青睐,资本追捧,地平线生态的合作伙伴迎来丰收的繁荣期。

芯片行业有一句流传甚广的老话:没有生态的芯片就是一块“砖”。这话的意思是说芯片市场的竞争不仅依赖于产品性能,还有生态系统的建设。

那些世界级的芯片公司,在各自领域不仅是产品性能的领先者,而且都构建生态奠定了各自领域的王者地位。

比如PC领域的王者英特尔,在软件操作系统上有微软这样的联盟伙伴,在硬件制造上有戴尔、惠普、联想等,强大的生态使得一直想通过ARM芯片向PC渗透的战略无法奏效;而手机领域的王者高通,也同样构建了强大的生态,软件系统上有安卓,硬件上有小米、VIVO、OPPO等。

生态是芯片公司重要的护城河,芯片产品可以竞争但是生态不可复制。

结束语

在过去,国内能够打造生态系统的大多数都是互联网公司。比如阿里建立电商生态、腾讯建立社交生态、抖音建立了内容生态。而在硬科技领域,基本没有能够建立生态系统的。

而现在,随着2025年疯狂的拿下诸多智驾大订单,硬科技领域诞生了第一家成功建立生态的公司:地平线。

地平线这几年在汽车市场的征战,几乎每一次都精准踩点行业的变化,从低阶切入抓住了20年到22年L2大规模普及的风口,又在24年推出J6推动了中高阶下沉普及,25年在智驾出现技术拐点时推出高阶。

几年持续的洞察、预判、布局,使得地平线2025年的出货量将冲向1000万量产大关。在持续领先的大规模量产的同时,地平线坚持“向上捅破天”,保持智驾技术的领先性,为行业打造新标杆。

#LargeAD

感知任务全面涨点!自动驾驶超强预训练来了(新加坡国立)

论文链接:https://arxiv.org/pdf/2501.04005
项目链接:https://ldkong.com/LargeAD​

写在前面 && 笔者理解

近期视觉基础模型(vision foundation models, VFMs)在2D视觉领域取得了显著进展,比如:SAM, X-Decoder, SEEM等等。这些模型在从2D图像中提取丰富的像素级语义方面表现出色。然而,将这些进步扩展到3D领域仍然是一个有待探索。

在本文中,作者提出了LargeAD,这是一个新颖且可扩展的框架,用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域,以实现几个关键目标:i)使用原始点云作为输入,消除对昂贵标签的需求,ii)利用驾驶场景中的空间和时间线索进行稳健的表示学习,以及iii)确保对预训练数据之外的下游数据集的泛化能力。

这篇工作的关键创新可以总结如下:

  • VFM驱动的超像素生成:通过VFMs从2D图像中生成语义丰富的超像素,这些超像素与LiDAR点云对齐,以构建高质量的对比样本,减少了对比学习中的“自我冲突”问题。
  • VFM辅助的对比学习策略:对齐多模态特征,解决了图像和LiDAR特征之间的跨模态差异。
  • 超点时间一致性:通过时间一致性机制增强点云表示的稳定性,减轻了LiDAR和相机传感器之间不完美同步的错误。
  • 多源数据预训练:利用多种LiDAR数据集进行预训练,构建了一个能够适应不同传感器配置的通用模型,提高了模型的可扩展性。

相关工作基于LiDAR的场景理解

对于自动驾驶车辆而言,准确且密集的3D感知对于安全导航至关重要。研究人员开发了各种点云分割方法,包括基于原始点、范围视图、鸟瞰图、体素以及多视图融合的方法。尽管取得了显著进展,但这些模型通常依赖于大量标注的数据集,这带来了可扩展性问题。为了减轻标注负担,最近的研究探索了半监督、弱监督以及主动学习方法,以及领域适应技术。本工作采用自监督学习策略,通过相机到LiDAR的关联从VFMs中提炼知识,从而在预训练期间消除了对手动标注的需求。

视觉基础模型

计算机视觉领域被开发出利用大量训练数据的视觉基础模型(VFMs)所改变以及复杂的自监督学习技术。其中,Segment Anything Model,即SAM,在通用图像分割方面树立了新的基准,在一系列下游任务中展示了令人印象深刻的零样本转移能力。其他值得注意的VFMs,如X-Decoder、OpenSeeD、SegGPT和SEEM,进一步展示了这些模型在处理多样化图像相关任务中的多功能性。本工作将VFMs的利用扩展到点云学习领域,利用它们的语义理解来增强3D表示学习中的空间和时间线索。

3D中的表示学习

3D自监督学习起源于基于图像的技术,通常侧重于以对象为中心的点云或室内场景,使用预训练任务、对比学习或掩码建模。这些方法通常缺乏户外驾驶场景所需的规模和多样性。如PointContrast、DepthContrast和SegContrast等努力开创了小规模点云的对比目标。最近,Sautier等人引入了SLidR,这是第一个在大规模点云上进行图像到LiDAR表示蒸馏的跨模态自监督学习方法。Mahmoud等人进一步完善了这种方法,引入了语义容忍的对比约束和类别平衡损失。SuperFlow引入了一个时空一致性框架,以高效地捕获多个时间步长的动态线索。作者的框架在SLidR的基础上,利用VFMs创建了一个更有效的跨模态对比目标。作者还引入了一个超点时间一致性正则化,以增强在多样化和动态的现实世界驾驶场景中的特征学习和稳健性。​

图像到LiDAR数据预训练

问题表述

定义一个点云 ,由LiDAR传感器收集的  个点组成。每个点  表示3D坐标,而  表示其特征嵌入,例如强度、延伸率等。本工作旨在将知识从一组由  个同步的RGB相机捕获的环视图像  转移到点云 。每张图像  具有由高度  和宽度  定义的空间分辨率。鉴于LiDAR和相机传感器被假设为良好校准,每个LiDAR点  可以投影到图像平面上作为一个像素 ,使用以下坐标变换:

其中  表示相机内参矩阵,而  是从LiDAR到相机坐标系的转换矩阵。之前的工作使用无监督的SLIC算法将具有相似RGB属性的图像区域聚合成一组超像素,记为 。随后,使用式(1)推导出对应的超点集 。为了促进从图像到LiDAR域的知识转移,这些方法通常在超像素和超点的表示之间进行跨模态对比学习。

超像素驱动的对比学习

早期的方法,如PPKT,通过对比学习将图像像素与对应的LiDAR点对齐。然而,PPKT在应用于稀疏点云数据时,往往会遇到一些限制,例如由于视点差异导致的错位、局部语义建模不足、密集和稀疏区域的权重不平衡以及对假阴性的处理不佳。尽管它在密集区域(例如靠近车辆的地方)表现良好,但其在稀疏区域的有效性显著下降,限制了其整体泛化能力。为了克服这些问题,SLidR引入了一种使用SLIC算法将相似像素聚合成一致超像素的超像素驱动蒸馏方法。通过在图像中的超像素和LiDAR数据中的超点之间进行对比学习,SLidR减少了由于传感器视点导致的对齐错误,并增强了局部语义一致性。在超像素和超点级别聚合特征解决了PPKT中存在的权重不平衡问题,确保了对密集和稀疏区域的更好处理。此外,对比学习覆盖更大区域有助于减少假阴性,从而实现更稳健的图像到LiDAR知识转移。

对比学习目标

设  表示一个可训练参数为  的LiDAR点云编码器,它处理点云  并为每个点输出一个  维的特征。另外,设  是一个图像编码器,参数为 ,从2D自监督预训练模型中初始化。为了计算超像素驱动的对比损失,作者构建了可训练的投影头  和 ,将3D点特征和2D图像特征映射到相同的  维嵌入空间。点投影头  是一个线性层,后跟 -归一化。图像投影头  包含一个  卷积层,后跟一个固定双线性插值层,在空间维度上输出,并进行 -归一化。目标是将2D网络的知识蒸馏到3D网络中,确保每个语义超点特征与其对应的语义超像素特征紧密相关。具体来说,超像素  和超点  用于分别对像素和点嵌入特征进行分组。对分组后的像素和点嵌入应用平均池化操作,以获得超像素嵌入特征  和超点嵌入特征 。对比损失  定义如下:

其中  表示超点和超像素嵌入特征之间的标量积,衡量它们的相似性。 是一个温度参数,用于缩放相似性分数。​

LARGEAD:一个可扩展、多功能且通用的框架

从基础模型生成超像素

图片

以往的研究利用SLIC将视觉上相似的图像区域聚合成超像素。然而,SLIC往往会过度分割语义连贯的区域(见图2),这给对比学习带来了挑战,特别是由于“自我冲突”现象。当语义相似的超像素被错误地视为负样本时,就会出现这种情况。SLIC缺乏对高级语义的理解加剧了对比学习中的困难。为了克服这些挑战,作者使用视觉基础模型(VFM)生成语义超像素,这些超像素在语义上丰富,显著提高了对LiDAR点云中近点和远点的表示学习(见图5)。

图片

与依赖低级RGB特征的方法不同,作者的方法通过利用从大规模预训练图像编码器派生的VFM来增强超像素生成。与SLIC不同,VFM捕获高级语义信息(如图2所示),使作者能够创建更具语义意义的超像素集,记为 。生成过程从通过提示创建语义掩码开始。通过引入更抽象的特征,VFM有效地通过更连贯地分组语义相似区域来解决“自我冲突”问题,减少了对比学习期间的误分类风险。因此,生成的超像素更准确地代表了对象语义,而不仅仅是视觉相似性。使用式(1),建立对应的超点集 ,确保2D图像特征和3D LiDAR点特征之间的正确对齐。作者的VFM辅助超像素有两个主要目的:首先,它们增强了生成的超像素的语义丰富性;其次,它们改进了2D图像特征与3D LiDAR点云之间的对齐。通过利用VFM提供的高级语义特征,作者的方法有效地解决了传统基于低级RGB特征的方法中经常出现的错位和特征不一致问题。

语义空间一致性学习

在上一节的基础上,作者引入了一个VFM辅助的对比学习框架,利用这些高级视觉特征。主要目标是在统一的语义空间中对齐超像素与超点,确保在训练期间不同模态中的对应区域被视为正对。为了实现这个框架,作者使用了前面描述的相同的可训练LiDAR点云编码器  和冻结的图像编码器 ,分别从LiDAR点云和2D图像中提取特征。对于对比损失,作者使用投影头  和 ,将点和图像特征投影到共享的  维嵌入空间中。与SLIC生成的低级线索不同,VFM产生的超像素富含语义信息,导致更具连贯性和意义的表示。为了计算VFM辅助的对比损失,作者对由超像素集  和对应的超点集  分组的像素和点嵌入应用平均池化。这个过程产生了超像素嵌入  和超点嵌入 。VFM辅助的对比损失  定义如下:

对比学习框架从VFM提供的丰富语义信息中收获很多。首先,这些语义增强的超像素有助于缓解现有方法中普遍存在的“自我冲突”问题。其次,由VFM生成的高质量对比样本形成了一个更具连贯性的优化景观,与无监督超像素生成方法相比,实现了更快的收敛。最后,使用VFM的超像素将嵌入长度从数百(SLIC)减少到数十,提高了计算效率并加速了整体训练过程。

实例超点时间一致性

在现实部署中,完美同步的LiDAR和相机数据通常是不切实际的,限制了可扩展性。为了解决这个问题,作者依赖点云的准确几何信息来减轻同步约束。

隐式几何聚类。作者首先使用RANSAC算法从时间戳  的LiDAR点云  中移除地面平面点,选择非地面点 。然后,作者使用HDBSCAN算法将  分组为  个段,。为了在不同时间戳之间映射段视图,作者将LiDAR帧转换为全局坐标系,然后进行聚合。这给出了聚合点云 。同样,作者使用RANSAC从  中生成非地面平面 。以相同的方式,作者对  进行分组以获得  个段 。为了为  个扫描在  个连续时间戳上生成段掩码,即 ,作者保持从聚合点云  到  个单独扫描的点索引映射。

超点时间一致性。作者利用聚类段来计算相关语义超点之间的时间一致性损失。具体来说,给定采样的时间对  和  及其对应的段  和 ,作者从点投影头  计算点特征  和 。对于目标嵌入,作者根据段  和  将点特征  和  分成  组。然后,作者对  应用平均池化操作,以获得  个目标均值特征向量 ,其中 。设分割点特征  为 ,其中  且  是对应段中的点数。作者计算时间一致性损失  以最小化当前帧(时间戳 )中的点特征与下一帧(时间戳 )中对应段均值特征之间的差异,如下所示:

由于所有属于当前帧中一个段的点的目标嵌入都作为下一帧中对应段的均值表示,这个损失将迫使一个段中的点收敛到一个均值表示,同时与其他段分离,隐式地将来自同一实例的点聚类在一起。图4提供了作者对比学习框架中的正特征对应关系。此外,作者在生成目标均值嵌入特征时交换 ,形成对称表示。这样,对应关系从  和  都被鼓励,导致以下优化目标:。

点到段正则化。为了将属于同一实例的LiDAR点在时间戳  拉近,作者最小化点特征  与对应均值聚类特征  之间的距离。为了实现这一点,作者使用最大池化函数根据段对  进行池化,以获得 ,其中 。点到段正则化通过以下  损失函数实现:

其中  表示对应段中的点数。最终的优化目标是最小化上述语义空间一致性损失 、时间一致性损失  和点到段正则化损失 。作者的语义超点时间一致性利用点云的准确几何信息,确保跨时间戳的一致表示。当LiDAR和相机之间的2D-3D对应关系不可靠时,这种方法仍然稳健,减轻了校准或同步问题引起的错误。点到段正则化进一步改进了空间聚合,增强了模型区分实例的能力,例如“汽车”和“卡车”。作者的实验结果证实,这些正则化策略不仅改进了表示学习,而且在传感器扰动下仍然有效。

多源数据预训练

之前的工作主要关注使用单源LiDAR数据集进行模型预训练。这种方法在应用于源外任务时限制了其泛化能力,因为不同的LiDAR数据集通常表现出不同的特征。为了克服这些限制,作者提出了一种多源数据预训练策略,整合了多种数据集,提高了特征表示的稳健性。这种策略增强了模型对不同LiDAR传感器的适应性,并提高了其跨领域的泛化性能。多源对比学习。考虑来自  个不同源的多个LiDAR数据集 。作者的LiDAR点云网络  被设计为在所有传感器上表现一致。然而,这些数据集的特征分布存在显著差异。例如,nuScenes 中的强度值范围从0到255;而SemanticKITTI 中的强度值范围从0到1。这些差异在使用共享模型权重跨数据集学习时使学习过程复杂化。为了处理这些领域特定的变化,作者首先对每个数据源的特征嵌入进行归一化。对于每个数据集,作者计算特征分布的均值  和方差 ,然后按以下方式归一化特征嵌入:

这种归一化确保了跨数据集的一致特征表示,最小化了不同分布特征的影响。归一化后,特征嵌入被送入网络 ,生成点特征,这些特征被分组成每个领域的超点嵌入,。为了提高模型跨数据集的泛化能力,作者采用跨数据集预训练对比损失 ,鼓励模型学习跨数据源的共享表示,同时保留每个领域的独特特征。这个损失定义如下:

这里,这个损失确保了来自同一源的超点嵌入更加相似,同时在不同源的超点之间保持足够的分离。这个对比目标增强了模型处理多域数据的能力,并鼓励开发共享但可适应的特征表示。多源数据预训练利用多种数据源创建了一个更具弹性和灵活的模型。通过解决领域之间的显著分布差异,特征归一化确保了跨不同数据集的一致性,促进了更统一的表示空间。

整体框架

作者的框架整合了几个创新组件,以实现可扩展且稳健的3D场景理解。一个关键元素是使用VFM生成语义丰富的超像素,解决了传统方法中的过度分割和自我冲突问题。这使得2D图像特征与3D LiDAR数据之间的对齐更加准确,增强了整体表示学习。

作者的方法结合了VFM辅助对比损失 ,确保了超像素与超点之间的语义一致性,而时间一致性损失  维持了跨帧的稳定点表示。点到段正则化损失  进一步改进了段内的空间一致性。最后,跨数据集预训练损失  解决了领域特定的变化,增强了模型跨不同LiDAR传感器的泛化能力。这些目标共同创建了一个稳健且多功能的框架,确保在各种任务和领域中实现卓越性能,同时保持了在现实世界应用中的可扩展性和适应性。​

实验及结果

数据集

作者使用十一个不同的数据集来评估作者的方法的有效性。第一组包括大规模真实世界的LiDAR数据集:nuScenes,SemanticKITTI 和Waymo Open,还包括ScribbleKITTI。对于非铺装路面场景,作者考虑RELLIS-3D ,它包含校园环境的多模态数据,以及SemanticPOSS ,这是一个关注动态对象的较小数据集。此外,作者还纳入了SemanticSTF ,它提供了在恶劣天气条件下收集的LiDAR扫描。作者还使用了三个合成数据集:SynLiDAR 、Synth4D 和DAPS-3D ,所有这些数据集都是使用模拟器生成的,以提供多样化的驾驶环境和场景。最后,作者在nuScenes-C 上评估鲁棒性,这是Robo3D挑战赛的一个基准,包含现实驾驶中常见的八种分布外干扰。

比较研究

与SOTA的比较。作者将所提出的LargeAD与随机初始化和十一种最先进预训练技术进行比较,使用线性探测(LP)和少样本微调协议在nuScenes上进行评估,结果如表1所示。结果表明预训练对下游任务性能有显著影响,特别是在1%、5%和10%的微调预算等低数据场景中。当从ResNet、ViT-S、ViT-B和ViT-L提炼知识时,作者的框架在LP设置下分别实现了46.13%、46.58%、47.84%和48.71%的mIoU分数,大幅超过了之前最佳模型。

图片

此外,作者的框架在nuScenes上的几乎所有微调任务中都持续提供了最高性能,突出了VFM辅助对比学习、空间-时间一致性正则化和多源数据预训练组合的有效性。

下游泛化。为了彻底评估LargeAD的泛化能力,作者在总共九个自动驾驶数据集上进行了实验,结果总结在表1(SemanticKITTI和Waymo Open)和表3(其他七个数据集)。每个数据集都呈现出不同的挑战,包括传感器类型、采集环境、规模和数据保真度的变化,这使得对模型泛化能力的评估非常严格。作者的框架在SemanticKITTI和Waymo Open上分别实现了51.68%和52.68%的mIoU分数,当从ViT-L提炼时,为这些基准设定了新的标准。作者还在表3中的其他七个数据集上超过了SLidR和Seal,结果一致显示作者的方法在所有评估数据集上都优于现有的最先进方法。这些结果强调了作者的方法在广泛的真实世界汽车感知任务中的稳健性和适应性。

图片

鲁棒性探测。评估在分布外数据上学习到的表示的鲁棒性至关重要,特别是在现实世界应用中环境不可预测的情况下。作者使用Robo3D基准中的nuScenes-C数据集来评估在各种干扰下的鲁棒性。如表4所示,自监督学习方法如PPKT和SLidR通常比传统的基线(随机初始化)如MinkUNet表现出更好的弹性。作者的方法,LargeAD,在几乎所有干扰类型中都实现了优越的鲁棒性,超过了其他最近的依赖不同LiDAR表示的分割骨干网络的方法,包括范围视图、鸟瞰图(BEV)、基于原始点的方法和多视图融合。这些结果强调了作者的预训练框架在多样化的真实世界自动驾驶条件下的适应性和弹性。

图片

3D目标检测的改进。除了LiDAR语义分割外,作者还将框架扩展到nuScenes数据集上的3D目标检测任务,并与最先进预训练方法进行比较。结果如表5所示,表明作者的方法在5%、10%和20%的各种数据比例下,对于CenterPoint和SECOND骨干网络都持续优于竞争方法。

图片

特别是,作者的方法在所有微调级别上都实现了最高的mAP和NDS,超过了最近的技术,如CSC和TriCC。值得注意的是,作者的框架在有限的微调数据下保持了卓越的性能,展示了其在3D目标检测中的稳健性和有效性。这些结果进一步验证了作者的框架在自动驾驶中的多个具有挑战性的任务中的泛化能力,从语义分割到目标检测。

定性评估。为了进一步评估作者框架的性能,作者在图6中可视化了nuScenes上的分割预测。预训练方法明显增强了与从随机初始化训练的模型相比的分割质量。在比较的方法中,LargeAD展示了最一致和准确的结果,特别是在复杂的驾驶环境中。这种改进可以归因于作者预训练策略中嵌入的稳健的空间和时间一致性学习。

图片

消融研究

比较不同的基础模型。这是第一次尝试将VFM适应于大规模点云表示学习。作者在四个流行的VFM上进行了全面的消融研究,即SAM、XDecoder 、OpenSeeD 和SEEM,结果如表6所示。作者的实验表明,不同的VFM对对比学习目标有不同的影响。所有VFM都一致地优于传统的SLIC。有趣的是,SAM生成了更细粒度的超像素,这在使用更大的标注数据集进行微调时增强了性能。作者假设SAM提供了更多样化的负样本,这可能有利于超像素驱动的对比学习。在所有配置中,LargeAD都显著超过了SLidR,证实了作者提出的大型跨传感器数据预训练框架的有效性。

图片

余弦相似度。作者在图5中可视化了各种VFM之间的特征相似性,提供了在微调之前表示之间差异的见解。像X-Decoder、OpenSeeD和SEEM这样的语义丰富的模型在对象和背景之间显示出清晰的特征区分。相比之下,像SLIC和SAM这样的无监督或过于细粒度的方法显示出较弱的语义意识。这些定性观察在从线性探测和微调任务(见表6)的性能结果中得到了反映,其中SEEM展示了在跨传感器表示学习中更强的一致性正则化,从而提高了下游任务的性能。

组件分析。LargeAD的核心组件的消融结果如表7所示。仅整合VFM(行c)在线性探测中就提供了4.20%的mIoU改进,而添加时间一致性学习(行b)又额外提供了1.65%的mIoU增益。将这两个组件结合起来(行d)总共提供了5.21%的mIoU提升。点到段正则化(行e)本身也贡献了显著的4.55% mIoU改进。当所有组件都整合在一起(行g)时,最终模型总共获得了6.33%的mIoU增益,超过了SLidR,在分布内和分布外基准测试中都优于所有最先进的方法。

图片

随着数据源的扩展。作者进行了消融研究,以检查在预训练期间使用不同数据集的影响,如表8所示。结果表明,仅在一个数据集上进行预训练,即nuScenes(N)、SemanticKITTI(K)或Waymo Open(W),就比随机初始化提供了显著的改进,特别是在线性探测(LP)和1%微调评估中。然而,随着在预训练中结合更多的数据集,性能在分布内(预训练数据集)和分布外数据集上都持续提高。例如,在所有三个数据集(N + K + W)上进行预训练,结果在所有场景中都获得了最佳性能。有趣的是,多数据集预训练的好处在分布外结果中最明显,结合两个或三个数据集比单数据集预训练带来了显著的增益。例如,结合nuScenes和Waymo Open(N + W)在nuScenes上的LP达到了47.42%的mIoU,超过了单数据集预训练设置。同样,使用所有三个数据集在分布外场景中超过了两个数据集的组合,特别是在Waymo Open中,在1%微调中达到了51.52%的mIoU。这些结果突出了多源预训练的重要性,它不仅提高了在分布内数据集中的泛化能力,而且显著增强了分布外性能,展示了作者提出的框架的稳健性和可扩展性。

图片

结论

本文介绍LargeAD,一个为大规模预训练设计的可扩展通用框架,适用于多种LiDAR数据集。该框架利用视觉基础模型(VFM)生成语义丰富的超像素,对齐2D图像特征与LiDAR点云,提升表示学习。通过VFM辅助对比学习、超点时间一致性和多源数据预训练,LargeAD在多个3D场景理解任务中达到顶尖性能,包括LiDAR语义分割和3D目标检测。广泛的实验表明,该框架在不同数据集上表现出色,具有良好的泛化和鲁棒性。消融研究证实了多数据集预训练和各组件的重要性。

#150亿造车新势力,宣布停运破产

百亿造车巨头,破产清零了。

造车8年,滑板底盘造车鼻祖Canoo,刚在主页更新了公告,宣告公司已申请破产,并立即停运。

辉煌时,这家公司云集宝马、福特、Uber等巨头的前高管,仅4年就在纳斯达克上市,市值一度高达150亿。

如今深陷泥沼,因融资失败而破产,随着9位创始人全部离去,Canoo的造车故事,自此遗憾画上句点。

滑板底盘造车的故事,在美国遭受了重创。

Canoo破产并立即停运

还是没熬过。

电动汽车公司Canoo刚发布了一条公告,宣告申请了美国破产法第7章,公司正式破产,并立即停止运营

其实在一个月前,Canoo的破产就有征兆。

上个月18日,Canoo也发布了一则公告,宣布暂停位于俄克拉荷马州的工厂,并让82名员工“休假”,公司将全力筹集继续运营的资金

只是没想到,情况要比想象的更加危急。

从公开数据来看,去年11月份,Canoo披露财报指标,公司去年第三季度营收90万美元(约659万元),同比增长71%,环比增长47%。

营收额不高,但增长速度惊人,主要是因为Canoo其实2023年第三季度才开始有收入,甚至去年第一季度又“颗粒无收”。

并且这是Canoo的首份盈利财报,净利润为325.8万美元(约2386.6万元),但前三季度的累计亏损仍有1.12亿美元(约8.2亿元)。

最关键的是,截至季度末,Canoo账上的现金只剩下1600万美元,折合人民币大约是1.2亿元

短期内,如果不能获得足够的资金支持,Canoo将不得不接受破产的命运,但事实,恰恰就是他们最不想看到的那样。

Canoo表示,由于未能获得美国能源部 (DOE) 贷款,与外国资本的谈判也没成功,公司资金链彻底断裂。

事到如今,这家巅峰市值21亿美元(约154亿元)的造车新势力,最新股价只剩1.35美分,折合人民币连一毛钱都不到

滑板底盘鼻祖,造车这一路

成立于2017年的Canoo,是滑板底盘赛道的代表性玩家。

创始人斯特凡·克劳斯(Stefan Krause)和乌尔里希·克兰茨(Ulrich Kranz),都是车圈老炮,还都出身宝马

克劳斯擅长财务,曾经担任过宝马和德意志银行的首席财务官克兰茨曾是宝马i3系列车型的项目主管,被称为“宝马i系列之父”

△左:斯特凡·克劳斯;右:乌尔里希·克兰茨

而且两人都曾是贾跃亭的手下干将,担任过法拉第未来(FF)的CFO和CTO

离开FF后,他们发现了滑板底盘的商机,一拍即合创立了Canoo。

所谓滑板底盘,就是一种专门为电动车设计的一体化底盘架构,将电池、传动系统、悬架等汽车部件,直接整合到一个通用底盘上。

其优势在于取消机械连接,车舱可以保留更多空间,而且同一个底盘,能够灵活适应不同大小的车辆类型,从而提升整个汽车产品系列的可扩展性。

目前为止,Canoo推出的四个系列车型,就都是基于自研的滑板式底盘打造。

一款是2019年面世的旗下首款电动车MPV,还有一款皮卡、一款轿车,以及生活方式送货车LDV

车造出来了,接下来该考虑的就是卖给谁。

Canoo的商业模式,起初设想非常美好,他们计划兼顾2B2C市场,3条腿走路:

对于2B市场,一条线是与主机厂合作,直接为他们提供滑板底盘;另一条则是针对物流货运

而在2C市场,Canoo提出了一个全新玩法——订阅模式:消费者在Canoo官方平台申请车辆,之后按月付费使用Canoo的车辆,类似于“短租”。

Canoo原本打算把这种模式当作主要的营收渠道,他们认为,既可以为消费者省去抵押、上牌等无形成本,公司也可以按需生产,降低制造成本,提升利润空间,岂不两全其美?

怎料,现实却并没有想象中的顺利。

主机厂普遍不太愿意把底盘业务交给别人,比如Canoo和现代汽车的合作项目,没多久就胎死腹中。

同时创新性的订阅模式也没搞起来,Canoo一度吸金困难,恰逢此时,CEO乌尔里希·克兰茨,跳槽去了苹果拓展汽车业务,连带着一场小型离职潮在Canoo爆发。

这种背景下,执行董事长托尼·阿奎拉(Tony Aquila),也是公司投资人,召开了分析师会议上,几乎推翻了此前所有的商业规划:

把订阅模式的收入占比,压缩到20%以下,重心面向货运领域的2B市场。

2022年,Canoo等到了一笔大单,沃尔玛宣布要购买4500辆Canoo LDV,用于配送在线订单。

但这也是Canoo一直到现在为止的最大订单,虽然Canoo还得到了美国邮政局和NASA的订单支持,但两者加起来的数量也只是9辆,不足以帮助Canoo力挽狂澜,也没法规模化降本。

如此,在接下来的几年,不仅是投资人逐渐失去信心,公司内部,曾经吸引来的创始高管,也都接连出走。

到2024年9月,伴随着汽车工程高级总监,克里斯托夫·库特纳 (Christoph Kuttner) 的离职,当初的9位联合创始人已全部离开。

Canoo已是形存神灭。

滑板造车,还能玩下去吗?

Canoo倒下,看起来像是对滑板底盘造车,再次敲响警钟。

细想之下,Canoo这些问题的症结,都在齐齐指向商业模式

不单单是Canoo自身的商业模式,也是滑板式底盘赛道的商业模式。

这个赛道第一个爆雷的Arrival,和Canoo类似,都走向了商用车路线,制造配送车、轻型货车卖给商超、物流商。

这样的模式,要面临着逃不开的困局,首先是这样的客户订单总量不大,因此难以规模化降低成本。

其次,滑板造车玩家并不提供自动驾驶技术,交付的车还是需要人类驾驶的车,但成本又远高于传统货车,愿意买账的人更加有限。

第二条路线,就是更为知名的Rivian选择的,乘用车路线,并且Rivian更倾向于整车生产,滑板底盘更多是一个标签。

不过,Rivian为了在北美市场活下来,首款产品几乎集全部资源押注了皮卡车型,竞争压力也可想而知。

如今走下去,也需要源源不断的融资在后方燃烧,刚刚还向美国能源部申请了一笔66亿美元(约483亿元)的贷款

但如果把视线放得更远,还存在一条路线,可以看向国内代表玩家,悠跑科技和PIX Moving

他们的模式,主要面向大客户,提供一体式底盘解决方案,更关键的是,他们面向的群体是中国。

悠跑创始人李鹏曾表示,国外玩家最大的战略错误,就是没来中国。

“你不来中国,拿不到全球最大电动汽车市场、全球最好供应链的支持,必然导致一个结果:交付不行。
我不认为滑板底盘不行,只是大家在商业操作上有很严重的问题。这件事(指滑板式底盘),我认为有且只有中国能做。”

上个月,就在Canoo关厂“裁员”的同时,悠跑刚刚完成了B轮融资,由合肥领投,徐州产发基金、以及博世集团旗下博原资本跟投,筹集到了数亿元人民币。

看起来,滑板底盘造车的未来,也许更多要看中国玩家了。

参考链接:

​​https://investors.canoo.com/news-presentations/press-releases/detail/159/canoo-inc-announces-chapter-7-bankruptcy-filing​​​​https://electrek.co/2025/01/18/another-one-bites-the-dust-as-canoo-files-for-chapter-7-bankruptcy/​​

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

http://www.ppmy.cn/devtools/152233.html

相关文章

Java 8 Stream API

文章目录 Java 8 Stream API1. Stream2. Stream 的创建3. 常见的 Stream 操作3.1 中间操作3.2 终止操作 4. Stream 的并行操作 Java 8 Stream API Java 8 引入了 Stream API,使得对集合类(如 List、Set 等)的操作变得更加简洁和直观。Stream…

gitignore忽略已经提交过的

已经在.gitignore文件中添加了过滤规则来忽略bin和obj等文件夹,但这些文件夹仍然出现在提交中,可能是因为这些文件夹在添加.gitignore规则之前已经被提交到Git仓库中了。要解决这个问题,您需要从Git的索引中移除这些文件夹,并确保…

1161 Merging Linked Lists (25)

Given two singly linked lists L1​a1​→a2​→⋯→an−1​→an​ and L2​b1​→b2​→⋯→bm−1​→bm​. If n≥2m, you are supposed to reverse and merge the shorter one into the longer one to obtain a list like a1​→a2​→bm​→a3​→a4​→bm−1​⋯. For ex…

如何用selenium来链接并打开比特浏览器进行自动化操作(1)

前言 本文是该专栏的第76篇,后面会持续分享python爬虫干货知识,记得关注。 本文,笔者将基于“比特浏览器”,通过selenium来实现链接并打开比特浏览器,进行相关的“自动化”操作。 值得一提的是,在本专栏之前,笔者有详细介绍过“使用selenium或者pyppeteer(puppeteer)…

InVideo AI技术浅析(二):自然语言处理

InVideo AI的自然语言处理(NLP)模块是整个系统中的关键部分,负责处理和分析用户输入的文本数据,以实现智能化的视频生成和编辑功能。 1. 文本解析与理解 1.1 文本解析过程 文本解析是将用户输入的自然语言文本转换为机器可理解的格式的过程。解析过程可以分为以下几个步…

深度学习基础知识

深度学习是人工智能(AI)和机器学习(ML)领域的一个重要分支,以下是对深度学习基础知识的归纳: 一、定义与原理 定义:深度学习是一种使计算机能够从经验中学习并以概念层次结构的方式理解世界的机…

计算机网络 (44)电子邮件

一、概述 电子邮件(Electronic Mail,简称E-mail)是因特网上最早流行的应用之一,并且至今仍然是因特网上最重要、最实用的应用之一。它利用计算机技术和互联网,实现了信息的快速、便捷传递。与传统的邮政系统相比&#…

计算机网络 (45)动态主机配置协议DHCP

前言 计算机网络中的动态主机配置协议(DHCP,Dynamic Host Configuration Protocol)是一种网络管理协议,主要用于自动分配IP地址和其他网络配置参数给连接到网络的设备。 一、基本概念 定义:DHCP是一种网络协议&#xf…