目录
Abstract
Methodology
Experrimental Setup
Results and Discussion
title:《A Sim2Real Deep Learning Approach for theTransformation of Images from Multiple Vehicle-Mounted Camerasto a Semantically Segmented Image in Bird’s Eye View》
Abstract
单目相机中的元素的距离估计是具有挑战性的问题,但是在相机视角转换到BEV下就可以轻松的估计元素之间的距离,对于平坦的表面,逆透视变换(IPM)可以精确地将图片转换到BEV视角下,但是三维物体(比如:车,行人)会因为变换而导致变形,这样就不能很好地计算这些object 到传感器的距离,本论文提出一种方法通过车载多相机图像获得校正的360°BEV视角下的分割图像,将校正后的BEV图像分割成语义类,并包含对遮挡区域的预测;网络在合成数据集上进行训练,同时也能很好地推广到真实的数据集上 。
Methodology
很多CNN只能处理一张图像的输入, 为了融合多个车载相机的图像,需要一个单输入网络将多张图像在维度上进行拼接(维度上拼接)作为一个输入,但是这样做会导致输入和输出在空间上不一致,因为卷积是局部操作,会导致输入中特定位置的信息会被映射到输出的相似的特定位置(覆盖),所以需要能够提供多视点处理图像,所以需要引入额外的机制来解决这一问题。
引入IPM会引入error,但是同时也能生成接近GT的BEV图像,因此,引入IPM去保证输入和输出之间的空间一致性是合理的,同时IPM也可以做为一种中间引导视图(文献[6],文献[7]),因此本方法将使用两种包含IPM机制的神经网络变体。
对遮挡的处理
如果只考虑输入和我们期望的输出,会出现一个问题:
对于交通参与者和静态的遮挡导致一些部分环境无法检测到,就没有办法转换到BEV空间中,比如当本车在大卡车后面的时候,大卡车前面的环境本车的摄像头就没有办法观测到。为了解决这一问题,引入对BEV区域的额外的语义类,在数据预处理阶段,这个类被引入GT标签图像,对于每个车载摄像头,光线从其安装位置投射到语义分割的地面实况 BEV 图像的边缘,光线仅投射到各相机视野内的边缘像素,沿这些光线的所有像素都根据规则处理来确定它们的遮挡状态,规则如下:
-
一些语义类总是挡住视线(如建筑、卡车);
-
一些语义类从不阻挡视线(如道路);
-
汽车会挡住视线,除非是它们后面较高的物体,(如卡车、巴士);
-
部分遮挡的物体仍然完全可见;
-
物体只有在所有相机视角都被遮挡时才被标记为遮挡。
Fig2 是在被语义类修改的 GT BEV 图像。
投影预处理(Projective Preprocessing)
使用IPM,在车载相机投影到BEV视角需要用到单应性,正确的求出单应性矩阵需要用到相机的内参和外参。
下面是对相机内参和外参的介绍:
公式1通常是不可逆的,因为无限多个世界坐标系的点对应于同一个图像像素。公式(3)中平面的假设,使用矩阵M使得PM成为了可逆矩阵。为了得到P,使用OpenCV3 [14]的相机校准方法。
IPM 应用于车辆所有的相机的图像,用来将不同位置相机 的重叠的视场的图像转换为BEV视图,先通过IPM分别进行转换(不同部位的不同相机的图像),之后拼接成一张完整的图像,叫做单应图像,重叠区域的像素是从其中任一图像中选取。
第一个变体:Single-Input Model
作者预先计算单应性图像,以弥补相机视图和BEV之间的很大一部分差距,但是引入IPM会带来error(object 投影变形),现在模型的任务就转换为如何减少引进IPM导致的error.现在尚没有针对这种单输入的网络架构,但是因为单应图像和期望的目标输出区域覆盖相同的目标区域,所以本论文使用CNN进行图像的处理(这在图像分割领域被证明是成功的)。
本论文选择DeepLabv3+(语义分割)作为提出的单网络输入方法的架构主干使用了MobileNetV2 and Xception 进行了对比实验,可训练参数大约2.1M和41M。
第二个变体:Multi-Input Model
提出了第二个神经网络,它处理来自车辆相机的所有未转换图像作为输入,它提取未转换的图像的特征,因此受IPM的影响不是很大,将这种转换整合到网络中,解决输入和输出空间不一致的问题。
为了建立多输入单输出的网络架构,将CNN扩展到多个输入流,并且融合上述的多个输入流,选用U-Net作为作为输出的网络架构的基础。
基本架构由分别基于连续池化和上采样的卷积编码器和解码器路径组成,此外,来自编码器端的高分辨率特征通过每个尺度上的跳跃连接与解码器端的上采样输出相结合。该架构包括为了处理多个输入图像和添加空间一致性而引入的两个扩展:
-
encode path 是对每个路径的图像进行复制,对于每个尺度,来自每个输入流的特征被连接和卷积以建立到单个解码器路径的跳过连接。
-
在连接输入流之前,Spatial Transformer [19] 单元使用 IPM 获得的固定单应性投影变换特征图。 这些转换在Figure 4 中介绍。
Figure 3 中的神经网络被命名为UNetXST(u-Net x spatial Transformer),该网络可以扩展到任意多的输入和空间转换单元,该网络的训练参数大约9.6M。
上图中,不同金字塔特征单独去做IPM转换,下一层金字塔特征是在做IPM变换前的featuremap上做的conv,做降采样的。最后只在结果级特征上做IPM,再进行concat。
Experrimental Setup
数据集( Data Acquisition)
在VTD(Virtual Test Drive)中构建了仿真环境,在虚拟环境中可以根据使用工具生成任意数量潜在的样本图片以及对应的标签。BEV视角是以本车为中心,可以实现360°环视,视角范围为70 x 44 m;输入图像的大小为964 px × 604 px;每个虚拟相机(仿真环境中有4个广角虚拟相机,提供360°的视场,示意图见Figure 1)都提供真实的图片和语义分割的图片,对于可见区域,语义分割有9个类,分别为:(road, sidewalk, person, car, truck, bus,bike, obstacle, vegetation);图像被设定为2HZ;训练集33k,测试集3.7k
[VTD] K. von Neumann-Cosel, M. Dupuis, and C. Weiss, “Virtual Test Drive – Provision of a Consistent Tool-Set for [D,H,S,V]-in-the-Loop,” in Proceedings of Driving Simulation Conference Europe, 2009, 2009.
为了更好地将将模型迁移到现实数据集中,在第二个合成数据集中,仅仅设置一个前置摄像头,对可见区域的语义分割减少为3个类,包括: (road, vehicle, occupied,space) ,只有前置摄像机的视场是感兴趣视场,GT图和车辆左对齐,训练集32k,测试集3.2k;
[问题] 左对齐是什么意思?有什么作用?
训练 setup
为了缩短推理时间,模型对输入的数据进行以中心进行裁切,比例为2:1,分辨率为512 X 256;输入图像被转换为one-hot向量;
优化器Adam,lr = 1e-4,batch = 5,\beta_{1}=0.9,\beta_{2}=0.999;
评价指标(Evaluation Metrics)
使用IOU对语义分割类进行评价,使用的是MIOU。
Results and Discussion
介绍模型的测试性能,使用IPM得到的单应图像作为baseline去比对;
单输入模型:DeepLab Xception and DeepLab MobileNetV2 ;
多输入模型: uNetXST;
注:带“*”的模型是:
uNetXST*:代表将空间转换单元消融的模型;
DL Xception* and DL MobileNetV2* : 代表没有使用IPM进行投影转换的模型;
并且测试了该方法从仿真数据推广到真实数据的可行性。
Table 1:
uNetXST score 最高,
该结果可以作为假设的证据,即在 IPM 引入透视误差之前,使用 uNetXST 的方法受益于能够从未转换的相机图像中提取特征。
带“*”的模型是没有引入IPM的模型,性能均比baseline 单应图像的性能要好,单应性视图确实有助于提高性能。
所有的得分都比单应图像要高,表明这两种变体都可以显著地改善 IPM 获得的环境感知结果。
Table II 是验证IPM对每一个语义分割类别的性能的影响。
example result
由IPM的平面世界假设引入的error在单应图像中是清晰可见的,
第一张图:与uNetXST相比,DeepLabX感知模型不能可靠地从单应图像中推断出建筑尺寸。
第二张图:是一个十字路口的挑战场景,相比于第一张图,uNetXST在第二张图中的检测到object的尺寸不咋对,是因为在十字路口的场景下,车和object的相对位置都发生了轻微的偏转,但是,这种场景(十字路口)在数据集中并不多见。
Figure 6 是real-world 的数据,首先使用额外的CNN模型进行语义分割,输入到DL Xception 和 uNetXST 中,可以看出uNetXST的检测结果更加顺滑,转换质量更高;
由于车辆动力学,在现实中,车辆摄像机相对于道路平面的姿态并不是恒定的,在Figure 6所示的场景中,两种模型使用的固定IPM转换可能会被错误校准。因此,测量车辆动力学并将动态转换变化纳入网络推理可以改善现实世界中的结果。