SLAM的作用

想象一个叫小萝卜的机器人，小萝卜在未知环境走，肯定想让小萝卜在脑海中记住两件事：

1. 我在什么地方？——定位。
2. 周围环境是什么样？——建图。

这就和我们逛一个旅游景点一样，我们会潜意识记得我们的走过的地方，其中就有定位和地图构建。

在这里地图的意思就是周围环境，也不是像什么谷歌地图上的那种地图。但是我感觉建图不是必须的，在一个三维空间画出我们的行走轨迹就行了啊，不一定需要把那些环境点也画出来啊。

相机的分类

1.单目相机

照片就是单目相机的数据。照片是三维东西的投影，以二维形式反映了三维的世界，丢了一个维度，就是深度。而我们看图片能判断图像中物体的远近，是我们看过大量图片，形成了一种直觉，并不是我们真的就看出了图片中物体的远近。

但是有时我们的距离感会失效，比如下面的图片。我们再怎么盯着照片看也看不出里面东西的距离，注意我们人眼是双目的。

单目相机的图片只是二维投影，真想估计出距离，相机就得移动，然后物体就会在图像上的运动，形成视差。但是在看一张死的图片时，无论我们怎么移动两只眼，图片都是死的，上面的东西不会动，但在真实场景中肯定会动，所以我们晃动脑袋看图片和晃动脑袋看真实场景是不一样的，也就是拍摄的照片就是在双眼晃动着看时也是单目的，我们无法得到距离(俩眼看到的东西一样没视差)，也没法得知尺度(没视差)。

一张死的照片在双目下只能知道照片距眼睛的距离，不能知道图片中的物体的距离。

2.双目相机

就是俩单目组成的，双目的距离(基线)可以用来估计空间位置，注意左右眼看一个场景是不一样的，而我们双眼的场景是两幅图合成出来的。可以利用我们俩眼图像的差异来判断物体的远近。

3.深度相机

里面多个红外结构光装置，可以主动向物体发射光并接收光来测量距离。这是物理测量，而双目是软件测量的。

4.单目和双目的尺度问题(重点)

看看黑猫酱的科普课堂之单目测距原理

单目测距不能判断尺度，想要正常测出物体的尺度，就要给个参照物，比如在这篇文章中用AR测脚长时摆了张身份证图片。

那么为啥不能确定尺度呢？高翔书上原话"如果把相机的运动和场景大小同时放大两倍，单目所看到的像是一样的。同样的，把这个大小乘以任意倍数，我们都将看到一样的景象。"

我是这样理解的：初始时，场景放大两倍，相机的位置放大使看到的场景大小一样，然后大场景下的相机移动和小场景下的相机移动看到的场景均一样，所以估计的轨迹均一样，但是你怎么知道物体的大小呢？俩场景下的大小是不一样的，但估计结果一样的，这就是少了参照。而双目的参照就是俩眼的距离，单目的两次移动之间的距离就是参照。

书上还说"我们无法确定电影里那些物体的“真实尺度”：那些大楼是真实的高楼大厦，还是放在桌上的模型？而摧毁大厦的是真实怪兽，还是穿着特摄服装的演员？"

注意电影屏幕就是单目数据，少了深度信息。我们用双目看定死的单目图像就是单目，我们看变化的两帧图像能感受出物体的远近只是单目摄像数据的变化，确实产生出了距离感，但是我们无法判断多大。这就是一个电影上的trick，我们感觉很大是利用人的想象能力。

总而言之，要想有尺度，必须同时产生视差才行，而不是单目的分时视差。