SLAM的作用
想象一个叫小萝卜的机器人,小萝卜在未知环境走,肯定想让小萝卜在脑海中记住两件事:
1. 我在什么地方?——定位。
2. 周围环境是什么样?——建图。
这就和我们逛一个旅游景点一样,我们会潜意识记得我们的走过的地方,其中就有定位和地图构建。
在这里地图的意思就是周围环境,也不是像什么谷歌地图上的那种地图。但是我感觉建图不是必须的,在一个三维空间画出我们的行走轨迹就行了啊,不一定需要把那些环境点也画出来啊。
相机的分类
1.单目相机
照片就是单目相机的数据。照片是三维东西的投影,以二维形式反映了三维的世界,丢了一个维度,就是深度。而我们看图片能判断图像中物体的远近,是我们看过大量图片,形成了一种直觉,并不是我们真的就看出了图片中物体的远近。
但是有时我们的距离感会失效,比如下面的图片。我们再怎么盯着照片看也看不出里面东西的距离,注意我们人眼是双目的。
单目相机的图片只是二维投影,真想估计出距离,相机就得移动,然后物体就会在图像上的运动,形成视差。但是在看一张死的图片时,无论我们怎么移动两只眼,图片都是死的,上面的东西不会动,但在真实场景中肯定会动,所以我们晃动脑袋看图片和晃动脑袋看真实场景是不一样的,也就是拍摄的照片就是在双眼晃动着看时也是单目的,我们无法得到距离(俩眼看到的东西一样没视差),也没法得知尺度(没视差)。
一张死的照片在双目下只能知道照片距眼睛的距离,不能知道图片中的物体的距离。
2.双目相机
就是俩单目组成的,双目的距离(基线)可以用来估计空间位置,注意左右眼看一个场景是不一样的,而我们双眼的场景是两幅图合成出来的。可以利用我们俩眼图像的差异来判断物体的远近。
3.深度相机
里面多个红外结构光装置,可以主动向物体发射光并接收光来测量距离。这是物理测量,而双目是软件测量的。
4.单目和双目的尺度问题(重点)
看看黑猫酱的科普课堂之单目测距原理
单目测距不能判断尺度,想要正常测出物体的尺度,就要给个参照物,比如在这篇文章中用AR测脚长时摆了张身份证图片。
那么为啥不能确定尺度呢?高翔书上原话"如果把相机的运动和场景大小同时放大两倍,单目所看到的像是一样的。同样的,把这个大小乘以任意倍数,我们都将看到一样的景象。"
我是这样理解的:初始时,场景放大两倍,相机的位置放大使看到的场景大小一样,然后大场景下的相机移动和小场景下的相机移动看到的场景均一样,所以估计的轨迹均一样,但是你怎么知道物体的大小呢?俩场景下的大小是不一样的,但估计结果一样的,这就是少了参照。而双目的参照就是俩眼的距离,单目的两次移动之间的距离就是参照。
书上还说"我们无法确定电影里那些物体的“真实尺度”:那些大楼是真实的高楼大厦,还是放在桌上的模型?而摧毁大厦的是真实怪兽,还是穿着特摄服装的演员?"
注意电影屏幕就是单目数据,少了深度信息。我们用双目看定死的单目图像就是单目,我们看变化的两帧图像能感受出物体的远近只是单目摄像数据的变化,确实产生出了距离感,但是我们无法判断多大。这就是一个电影上的trick,我们感觉很大是利用人的想象能力。
总而言之,要想有尺度,必须同时产生视差才行,而不是单目的分时视差。
经典SLAM框架
这个框架已经定型了。
1.视觉里程计
视觉里程计只考虑相邻图像间的运动,怎么根据相邻两张图片估计呢?其实是估计相机运动,视觉里程计就是相机的轨迹,然后知道了每个时刻相机的位置,再计算出图片中像素的空间点,这样就得到了地图。
貌似轨迹有了,地图也有了,那是不是就结束了呢?其实这种出来的轨迹会有累积漂移。回环检测和后端优化负责校正这个问题,回环检测负责找到回环,而后端优化用此信息校正整个轨迹。
2.后端优化
后端优化分局部优化和全局优化。全局优化用到回环检测,局部优化只是为了尽可能消除噪声,当成滤波问题。
3.回环检测
主要利用图片间的相似性,设计图像的特征提取和匹配。
4.建图
就是把环境建立起来。
SLAM的数学描述
1.运动方程
用老位置和运动传感器读数来估计新位置。假设小萝卜在平面中运动,(x,y)代表位置,θ代表转角,同时,运动传感器能够测量到小萝卜在每两个时间间隔位置和转角的变化量=(∆x; ∆y; ∆θ),所以运动方程如下。
2.观测方程
为从照片中提取出的路标点距当前位置的方位,为路标点,为当前位置。如果说携带着一个二维激光传感器,那观测数据直接拿来用。
如果是相机,观测数据要从图片提取。然后算相机位置x和路标点位置y。
3.俩方程咋联系起来
读到"当我们知道运动测量的读数 u,以及传感器的读数 z 时,如何求解定位问题(估计 x)和建图问题(估计 y)?".
突然意识到这俩方程是IMU+激光传感器的。如果现在有运动传感器IMU,那么就能用运动方程解出,解出机器人本体的运动轨迹;接着使用激光传感器数据和自身位置算出路标点。
如果现在只有相机的话,只能用第二个方程,然后是从图像中恢复出相机位置和路标点。这是同时解俩未知数吗?应该不是,后期更新到底是啥。
其中求解x和y就是状态估计问题。因为有噪声数据,所以用滤波来去除。而现在主流是图优化,具体为啥状态估计可以用滤波技术或优化技术还不清楚呢。