事件相机（Event Camera）及相关研究简介

一、概述

在这里插入图片描述
事件相机（Event-based camera）是近几年出现的新型相机，它完全不同于传统相机的数据回传格式，而是一种新型的，异步地（asynchronously），所谓事件（event）。事件相机主要有两种，DVS（Dynamic Vision Sensor）以及DAVIS（Dynamic and Active Pixel Vision Sensor）。DVS是普通的事件相机，而DAVIS就是在回传事件的同时还可以回传灰度图。
有人把事件相机称为下一代相机，事实是这样吗？我只能说有待考验。目前为止我们的确发现了事件相机优于传统相机的地方，但仍有很多地方事件相机未能做到。其实，与其说未能做到，我更愿意说是还没有开发到。现在研究所谓Event-based Vision的人越来越多，相信它的优点将被进一步发掘。今天我写这一篇博文，用意便是将这样一个新兴事物介绍给更多的人，希望在不久的将来我们能够一起去发现它在视觉方面的惊人之处。
详细了解可以前往Gallego以及他的同事的一篇综述：Event-based Vision:A Survey
更多的资源可以前往收录事件视觉领域论文的github：https://github.com/uzh-rpg/event-based_vision_resources
事件相机官网链接：https://inivation.com/
在这里插入图片描述

二、事件

我们把事件相机称为一种bio-inspired sensor，研究它的领域称为bio-inspired vision，即“仿生的”。制作事件相机的人的灵感就是来自于仿生。在人的眼睛中，会有一部分视觉细胞对动态的东西特别敏感。设想一下，在你面前有一个静态的房间，你去一点一点地观察它，其实很慢（就像如果让你去找到房间里一个角落放的一本书）。但是，如果突然有一个东西动了起来，我们是视线会立刻被吸引过去。传统的相机呈现在我们眼前的便正是前者，一个静止的空间。而事件相机制作的目的就是：敏感地捕捉到运动的物体。
在介绍事件之前，我们先来看看传统RGB相机。在传统的视觉领域，相机传回的信息是同步的，所谓同步，就是在某一时刻t，相机会进行曝光，把这一时刻所有的像素填在一个矩阵里回传，一张照片就诞生了。一张照片上所有的像素都对应着同一时刻。至于视频，不过是很多帧的图片，相邻图片间的时间间隔可大可小，这便是我们常说的帧率（frame rate），也称为时延（time latency）。这就涉及到了事件相机的优越之处，关于事件相机的优点我们后文再说。
接下来我们说事件。事件相机回传的信息我们称为事件（Event），非常随便的命名（如果是我做出来的我就用我名字命名）。一个事件所具有的格式是一个向量，如下：
$\epsilon = (x_i,y_i,t_i,p_i)$
事件相机便是这样异步地回传如上所示的事件。
何为异步？就是不同于传统相机同时地回传所有像素值，事件相机不同事件回传的时刻是不同的，可以看到上述事件中有一个值 $t_i$ ，便是这个事件发生的时间。
事件相机的工作机制是，当某个像素所处位置的亮度值发生变化时，相机就会回传一个上述格式的事件，其中前两项为事件的像素坐标，第三项为事件发生的时间戳，最后一项取值为极性（polarity）0、1,（或者-1、1）代表亮度是由低到高还是由高到低，也常被称作Positive or Negtive Event，又被称作On or Off Event。
就这样，在整个相机视野内，只要有一个像素值变化，就会回传一个事件，这些所有的事件都是异步发生的（再小的时间间隔也不可能完全同时），所以事件的时间戳均不相同，由于回传很简单，所以和传统相机相比，它具有低时延的特性，可以捕获很短时间间隔内的像素变化。

事件的触发是由复杂电路所确保的，在研究时，通常将其建模如下（看不懂可以跳过，问题不大）：
设某一个特征点在某视频中对应的轨迹为 $\vec u(t)$ 其中 $\vec u=(u,v)$ 也即该点坐标随时间在变化。
假设图片光强值为 $I(\vec u(t),t)$ ，即一个传统视频。
在极短时间内，类似光流基本假设光度不变，在该点轨迹出的光度应该是不变的，由全微分公式可以得到如下方程：
$\frac{d\tilde I}{dt}=<\nabla_u \tilde I,\dot u>+\frac{\partial \tilde I}{\partial t}=0$
其中 $< \cdot, \cdot >$ 表示点乘， $\nabla_u \tilde I=(\frac{\partial \tilde I}{\partial u},\frac{\partial \tilde I}{\partial v})^T$ 是光度值随轨迹变化的梯度， $\dot {\vec u}=(\dot u,\dot v)^T$ 即为该点的像素运动速度。
DVS中考虑对数域的光度值，即：
$\tilde I=log(I)$
故光度值变化为：
$\Delta log(I)\approx\frac{\partial log(I)}{\partial t}\Delta t=-<\nabla_u log(I),\dot u\Delta t>$
当光度变化大于某阈值C时，事件触发：
$|\Delta log(I)|\approx|<\nabla_u log(I),\dot u\Delta t>|\geq C$
当 $\Delta log(I)\geq C$ ，触发正事件（p=+1），当 $\Delta log(I)\leq -C$ 时，触发负事件（p=-1）。
下面看一下事件长什么样：
在这里插入图片描述
（a）图是画在三维坐标系里的事件，将（a）图每个像素事件累加，压成一张图，便是（b）图（红色和蓝色代表正负事件）
再来几张图：

（部分图片来自网络和他人博客，侵删）

三、事件相机的优点

当你看event相关的论文时，经常遇到的便是low time latency and high dynamic range，即低时延，高动态范围，这大概就是事件相机的主要优点，在这里我再列举一下，可能不全，大家可以在使用中慢慢发现。
1、高动态范围，低时延，相邻Event之间的时间可以小于1微秒，这个前面也说过。
2、由于低时延，在拍摄高速物体时传统相机会发生模糊（由于会有一段曝光时间），而事件相机几乎不会。如下图介绍：
在拍摄一个旋转的圆盘时，如果转速较慢：
在这里插入图片描述
而如果转速较快：

可以看到转速较快时传统相机发生了模糊，而事件依然完整地记录运动状态。
3、由于事件相机的特质，在光强较强或较弱的环境下（高曝光和低曝光），传统相机均会“失明”，但像素变化仍然存在，所以事件相机仍能看清眼前的东西。这就能引申到很多方面，比如自动驾驶，在黑夜里行走，可能传统相机已经几乎看不到前方黑暗中的人，但事件相机看得一清二楚。

四、未来，新一代相机？

事件相机确实有优于传统相机的能力，但也有其不足，如数据难以处理，只有轮廓信息缺乏光强信息。在时间域上取值是连续的但在值域的取值是离散的，这一点也有别于常见的数字信号。这样的数据在处理时已经完全不能用传统RGB相机的方法处理了。但是它仍能够完成传统相机所能完成的任务，如光流估计、特征提取、三维重建、模式识别、SLAM等等等等。
我想在未来我们一定是将两种相机各取其长，我相信在我们的手里它一定能发挥它最大的价值。也希望能够有更多的人投入到这个新兴的领域来。

之后我将继续更近对事件相机的介绍，并整理出一些论文笔记。有兴趣的朋友可以一起讨论呀！