来源:投稿 作者:小灰灰 编辑:学姐
论文标题:Neural Inertial Localization
论文链接: https://arxiv.org/pdf/2203.15851v1.pdf
图1.从IMU测量到位置估计。给定惯性传感器数据(左),我们的方法(中)使用神经惯性导航技术来查找速度矢量序列;然后训练一个基于场景特定变压器的神经架构,该架构将速度序列映射到位置可能性。该图显示了来自我们办公室数据集的示例本地化结果。颜色显示输入(左)、中间表示(中)和位置(右)之间的时间对应关系。
1.摘要
在高度城市化地区实施先进智能交通系统的挑战之一是全球导航卫星系统(GNSS)接收机定位精度不足。多径Multipath和非视线(NLOS)效应严重恶化了GNSS定位性能。本文旨在通过有监督机器学习训练分类器,将GNSS伪距测量分为三类:clean, multipath and NLOS。从全球导航卫星系统原始数据中获得或计算出的若干特征进行了评估。本文还提出了一种新的特征来表示伪距测量值和多普勒频移测量值之间的一致性。根据实验结果,使用由所提出的特征和接收信号强度训练的支持向量机(SVM)分类器可以达到约75%的分类精度
2.介绍
智能出行是智能城市发展的六大组成部分之一。全球导航卫星系统(GNSS)本地化对于不同应用的智能移动性至关重要,包括行人和车辆导航、车队管理、道路交通监控和分析、道路用户收费、非正常驾驶检测等。本文主要研究自动驾驶应用中的车辆和行人定位。
随着行人对车辆(P2V)和车辆对车辆(V2V)通信的成熟和普及,行人和自动车辆之间的碰撞避免可能在未来实现。当前智能避碰的瓶颈之一是行人和车辆的定位精度。一般来说,GNSS接收机是向载波提供绝对定位信息的最常用设备/芯片。
目前,在高速公路、高速公路、郊区和农村等卫星观测条件较好的地区,全球导航卫星系统的定位性能非常令人满意。其在城市地区的定位表现则是另一回事。密集建筑环境中臭名昭著的多径效应正在显著降低GNSS定位精度。多径效应来源于高层建筑和摩天大楼对卫星信号的反射和衍射。它很容易将全球导航卫星系统的精度降低到几十米。与多径效应相比,更具破坏性的现象是非视线(NLOS)接收。多径和非直瞄之间的差异可以如图1所示。多径包含视线(LOS)和反射信号,而非直视仅包含后者。
使用复杂的接收机相关器设计可以大致减轻多径效应。相关器设计的原则是比较代码跟踪环路中的早期、提示和晚期信道。换句话说,它将直接信号与反射信号进行比较。不幸的是,由于非直瞄系统只包含反射信号,因此这种设计根本不能减轻非直瞄的影响。因此,关注非直瞄探测和缓解的研究正在增加。非直瞄探测方法可分为天线、高级接收机算法、传感器集成、3D建模和机器学习。
3.惯性定位问题
惯性定位是仅根据IMU传感器数据的历史来估计对象在环境中的位置的任务。存在训练阶段和测试阶段,即不使用平面布置图或外部位置信息。在测试过程中,输入是一系列加速度(加速度计)、角速度(陀螺仪)和可选的磁场(罗盘)测量值,每个测量值都有3个DoF。当地面真实位置可用时,输出是给定时间戳集合的位置估计。在训练期间,我们有一组输入IMU传感器数据和输出位置。
度量:定位精度通过
1)距离阈值(1、2、4或6米)内正确位置估计的比率(%)来测量
2)在角度阈值(20或40度)内的正确速度方向的比率(%)。位置比率是主要度量,而方向比率衡量时间一致性。
重新定位任务扩展:本文提出了一个惯性重新定位任务,它与惯性定位不同,因为位置R2(以及可选的运动方向SE(2))是先验已知的。该任务代表了一种场景,即使用WiFi在几分钟内获取一次全球位置,同时使用IMU传感器重新定位两者之间的位置以提高能效。
4.惯性定位数据集
我们展示了第一个惯性定位数据集,其中包含来自两座大学建筑和一个办公空间的53小时运动/轨迹数据。表1总结了数据集统计数据,而图2可视化了覆盖在平面布置图上的所有地面真相轨迹。每个场景都跨越一个平面,位置以二维坐标给出,没有垂直位移。如果可用,将为场景提供平面图图像以进行定性可视化,该图像描述了建筑结构(例如,墙、门和窗),但不包含椅子、桌子和沙发等瞬态对象。
「数据收集:」 我们用智能手机收集IMU传感器数据和地面实况位置。在未来,AR设备(例如Meta的Aria眼镜、Snap的眼镜)将允许收集以自我为中心的数据集,以及紧密耦合的IMU和相机数据。我们在这项工作中使用了两种设备;1) 具有内置视觉惯性SLAM功能的手持式3D跟踪电话(Google Tango、AsusZenfone AR),产生地面真实相对运动,其中Z轴与重力对齐;以及2)标准智能手机,在自然电话处理下(例如在口袋、手上或用于呼叫等)记录IMU传感器数据。我们利用探戈区域描述文件[6]将地面真实轨迹与公共坐标系对齐,然后手动与平面图对齐。大学A包含来自RoNIN数据集[1]的数据,这些数据手动与平面图对齐。IMU传感器数据和地面真实位置均以200Hz记录。
「测试集:」 我们随机选择六分之一的轨迹作为测试数据,其平均持续时间为13.3分钟。我们还通过从每个测试序列中随机裁剪三个子序列(100米)来形成一组短的固定长度子序列用于测试。
NILoc数据集被去识别以掩盖受试者的身份,并且不包含任何图像或视频数据。
5.NILoc:神经惯性定位
代替从IMU测量回归位置,NILoc系统利用了神经惯性导航将IMU传感器数据序列转换为一系列速度矢量,我们的核心任务是将速度矢量转换为位置估计。
NILoc采用具有两个基于Transformer的网络分支的神经架构[2],能够使用复杂运动数据的长期历史来减少不确定性。“速度分支”编码一系列速度向量,其中时间卷积网络压缩时间维度以进一步增强时间感受野。“自回归位置分支”编码了一系列位置似然性,能够自动回归地产生长期的位置估计。在给定训练数据的情况下,每个场景对网络进行训练。 如图3显示,神经惯性定位系统图。我们使用双分支变压器架构来估计速度输入的位置似然性。仅用于训练的路径显示为虚线。
5.1速度分支
该分支使用速度数据的历史来估计位置序列。它由三个网络模块组成:基于TCN的速度压缩器、变压器速度编码器和翻译感知位置解码器。
「基于TCN的速度压缩器:」 Transformer功能强大但内存密集。我们使用时间卷积网络(TCN)[3]将速度序列长度压缩10倍,允许我们处理更长的运动历史。特别地,我们使用具有10的感受野的2层TCN将长度为T的2D速度向量序列压缩为长度为T/10的d维特征向量序列{vt′}:
「Transformer编码器:」 Transformer架构[27]将压缩的速度向量{vt′}作为标记,并通过级联帧索引的d/2维三角位置编码来初始化每个特征向量ft:
「翻译感知位置解码器:」 最后一个模块对每个单独的嵌入et进行操作。首先,et是重新排列成图像特征体积(3D张量3),以及通过3层全卷积解码器进行上采样转置卷积。最后一层是“翻译”-感知“1×1卷积,其参数不共享跨像素。为了说明不确定性,输出位置表示为大小的2D似然图Lt,编码器有两块自我注意网络。每个模块有2个标准变压器编码器层,具有8路多头关注。第一个块之后的特征向量也被传递到另一个分支(即,自回归位置分支)。这种翻译感知层使网络能够轻松地学习与翻译相关的信息,例如“人们从未来到过这个位置”或“人们总是从这个门口经过”。
5.2自回归位置分支
位置分支结合了来自速度分支的速度特征和来自其过去推断或外部位置信息(例如WiFi)的先验位置似然性。
位置分支与速度分支具有相同的架构,但有两个不同之处。首先,代替基于TCN的速度压缩器,我们使用ConvNet将每个W×H似然映射转换为d′维向量。我们使用相同的三角位置编码(但使用维度d′而不是d/2来匹配维度),将其添加到向量中。其次,我们在每个自我关注层之后(即,在每个添加规范层之前)通过交叉关注从速度分支注入速度特征。其余的架构是相同的。
在推理时,我们首先以滑动窗口的方式评估速度分支,以计算速度特征向量。位置分支获取多达20帧的位置似然历史:{Lt,Lt−1,··Lt-19}. L0编码外部初始位置信息(例如来自WiFi)或统一分布(如果不可用)。在输出端,用帧t′处的似然性初始化的节点将在帧t′+1处具有似然性估计。因此,我们推断一帧的似然性高达20倍,其中我们通过从第一个推断结果到最后一个将权重从1.0减至0.05来计算加权平均值作为最终似然性。
5.3训练阶段
在两个分支都使用交叉熵损失。地面真实可能性是一个零强度图像,除了地面真实位置的一个像素,其值为1.0。我们采用并行计划采样[4]来训练自回归位置分支,而不展开递归推断。该过程有两个步骤。首先,我们将GT似然传递给所有输入令牌并进行预测。其次,我们使用概率rteacher(称为教师强制比率)保持输入令牌中的GT似然性,同时用预测的似然性替换剩余节点。反向传播仅在第二步骤中进行。rteacher在前50个时期设置为1.0,每5个时期后减少0.01。
6.实验
据我们所知,以前没有任何工作涉及室内仅从IMU数据进行定位。因此,我们比较采用以下三种融合IMU和平面布置图的技术,仅使用IMU数据而不使用平面布置图图像的定位。我们简要解释这三种技术。
•「粒子过滤器(PF)」 维护一组粒子,每个粒子存储位置、航向方向和偏差/刻度误差校正项。从给定初始位置周围的高斯分布或均匀分布开始,系统基于惯性导航结果和平面布置图信息更新粒子的状态(即,如果在可步行区域之外,则降低粒子的重量)。我们将最接近加权中值x/y坐标的粒子作为位置预测。
•「学习先验(LP)」 也是一种基于粒子过滤器的方法,同时使用深度网络帮助更新粒子权重。通过UNet[20]提取的平面图特征和LSTM[11]提取的运动特征之间的点积计算的位置似然性用于对粒子进行加权。我们使用本地实现,因为代码不可用。注意,该方法需要初始位置和方向,并且仅针对SE(2)重新定位任务进行评估。
•「条件随机场(CRF)」 基于最先进的地图匹配系统,该系统根据平面图计算到达能力图,使用惯性导航结果在图节点之间转换,并使用维特比算法回溯和确定位置。我们对系统进行了一些修改,以更好地适应我们的要求:1)使用RoNIN结果作为速度输入;2) 将搜索邻域增加1.5倍以处理惯性导航中的比例不准确;以及3)在固定窗口内进行周期性反向传播,以与其他近实时基线相比较。
表2a是我们的主要结果,分别对三座建筑的本地化任务进行了定量评估。NILoc在大多数参赛作品中都取得了最好的成绩。唯一的例外是针对固定短序列的建筑A的CRF。注意,CRF使用平面图信息,而我们的输入仅为IMU。CRF是计算密集型的,比我们的方法慢30倍,甚至需要动态编程来有效地搜索与平面布置图的所有可能对齐。
表2b显示了重新定位任务的结果,三座建筑物的平均值。所有方法都通过提供更多的初始化信息来始终如一地提高性能。虽然NILoc在较低的距离阈值(即,通常非常精确)下获得了最佳结果,但CRF在牺牲其密集的计算费用和对平面布置图图像的要求的情况下总体表现更好。
表3是一项消融研究,评估了我们系统中各种模块的贡献。第一行与最先进的惯性导航方法进行了比较,我们和所有基线都优于该方法。接下来的四行显示了基于距离的成功率,同时从主系统中逐个删除了四个模块。该表显示,在两个分支上对网络进行损失训练非常重要。第二排特别有趣。位置和(前半部分)速度分支都只在位置分支处进行损失训练,其性能显著下降。第三行表示惯性导航任务中高度不确定性的挑战。如果没有基于TCN的压缩器,当输入运动历史减少10倍时,成功率甚至下降到一位数。最后两行比较了整个系统的速度分支和位置分支的预测。速度分支不采用先前的位置似然性,无法解决重新定位任务。然而,对于定位任务,它以明显的优势优于定位分支,同时计算效率是定位分支的两倍。
参考文献:
- [1] SachiniHerath,HangYan,andYasutakaFurukawa.RoNIN: Robust neural inertial navigation in the wild: Benchmark, evaluations, & new methods. In 2020 IEEE International Conference on Robotics and Automation (ICRA), pages 3146–3152. IEEE, 2020. 1, 2, 3, 6, 7
- [2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008, 2017. 2, 4
- [3] ShaojieBai,JZicoKolter,andVladlenKoltun.Anempirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018. 4
- [4] Tsvetomila Mihaylova and Andre ́ FT Martins. Scheduled sampling for transformers. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, pages 351–356, 2019. 5
关注下方《学姐带你玩AI》🚀🚀🚀
回复“500”获取AI必读200+论文PDF
码字不易,欢迎大家点赞评论收藏!