焦点 Focus
在几何光学中,焦点,是从无穷远处物体出发的光线经过光学系统后会聚的点。但这只是概念中的一个理想点,在现实世界中,焦点会存在一定的空间分布,称为弥散圆。这种非理想的焦点通常源于光学系统的像差(aberration)。
In geometrical optics, a focus, also called an image point, is the point where light rays originating from a point on the object converge. Although the focus is conceptually a point, physically the focus has a spatial extent, called the blur circle. This non-ideal focusing may be caused by aberrations of the imaging optics.
焦距 Focal length
焦距用来衡量一个光学系统会聚或发散光线的能力,常用符号f表示。焦距的倒数定义为光学系统的光学能力(optical power),符号为P=1/f,也称屈光能力(dioptric power), 折射能力(refractive power), 聚焦能力(focusing power), 会聚能力(convergence power)。
正的焦距代表光线会聚,负的焦距代表光线发散。焦距越短屈光能力越强。
The focal length of an optical system is a measure of how strongly the system converges or diverges light; it is the inverse of the system's optical power. A positive focal length indicates that a system converges light, while a negative focal length indicates that the system diverges light. A system with a shorter focal length bends the rays more sharply, bringing them to a focus in a shorter distance or diverging them more quickly.
最小对焦距离 Minimum Focus Distance
所有镜头都可以对无穷远处的物体成清晰像,但对于非常靠近镜头的物体则存在一定的限制,超过限制后成像开始模糊。这个距离称为最小对焦距离(minimum focus range / distance),经常简称对焦距离(focus distance)。
下图所示的50mm单反镜头在右侧标注了对焦距离为0.45m/1.5ft,含义是镜头距离拍摄对象小于此距离时图像将会模糊。
当镜头对焦良好时,来自拍摄对象(subject)的光线刚好会聚到sensor感光面,此状态称"in focus",如下图所示。
当聚焦良好时,图像会比较清晰("sharp"),存在大量锐利的纹理细节。
当镜头对焦不良时称为失焦(out of focus),以拍摄人像为例,如果聚焦最清晰的区域在人的前方,则称为“front focus”。反之,如果人身后的区域聚焦最清晰,则称为"back focus"。
在正常情况下,camera的视野(Field of View, FOV)里总会有一些物体是清晰的。拍摄时要把镜头对焦到拍摄的主体(subject)上来。
多数镜头上都有调节焦距的机械结构,可以手动或者电机驱动镜片组沿光轴前后移动。镜头外表面会标注"near"和"far"两个方向,其作用如下图所示。
对于front focus情况,镜头需要旋向Far方向。相反,对于back focus情况,镜头需要旋向Near方向。至于为什么是这样需要深入了解一下透镜的成像原理。
图中
do 代表物距(distance of object);
di 代表像距(distance of image);
f=focal length,对于定焦镜头f是一个常数;对于变焦镜头f在一定范围内可调。
根据透镜的成像方程,无穷远处的物体(do=∞)像点位于焦点处(di=f)。
当物体向逐渐镜头靠近时,物距do逐渐变小,像距di逐渐变大,两者的关系始终满足成像方程。总的原则是,物距越大则像距越小,反之亦然。
在相机和摄像机中,通常sensor的位置是固定不动的,而镜片可以沿光轴前后移动,从而改变di。因此如果subject在更远处(front focus),则需要增大do减小di,即令镜片更加靠近sensor;反之如果subject 在更近处(back focus),则需要减小do增大di,即令镜片更加远离sensor。
图像是否"清晰(sharp)"是人的主观感受,它的物理本质是光学系统的点扩散函数(Point Spread Function,PSF)这个指标。PSF反映的是一个理想物点经过光学系统后能量的空间分布情况。为讨论方便,令光轴为z轴,成像面为xy平面。由于光的波动性本质,z轴上的一个理想点光源经过光学系统后会在像点所在的xy平面上汇聚成一个具有一定直径的光斑即艾里斑(Airy disk),其直径取决于光学系统的通光口径。这是PSF的理论极限。
当xy平面沿z轴前后移动时,距离像点越远则光斑直径越大,光能量也就越分散(spread)。
在此基础上,实际的光学系统总是不理想的,存在各种原理的像差,这些像差效应使光能量进一步扩散。
另外,由于光能量总是扩散的,所以实际的像点只是一个光能量相对集中的平均位置。当光学系统的参数(如光圈大小)发生变化时,光能量的扩散特性也会随之变化,因此焦点的位置也会发生一定程度的偏移,这个现象叫做focus shift,原理如下图所示。
由各种原因引起的光能量扩散反映在图像上就是图像变得不清晰度(unsharp),模糊(blurred),低锐度(low accutance),低对比度(low contrast)。
由于光能量扩散的原因,理想黑白线对(line-pair)经过镜头之后会出现边缘模糊。如果把方波信号看作是无穷多正弦信号的叠加,那么光学系统的作用就相当于一个空间低通滤波器,会过滤掉信号中的高频分量,只保留低频分量。
下图是测试聚焦误差的常用工具,数字0作为对焦的subject,通过数字和图案的清晰度可以判断失焦的方向和程度。
自动聚焦 Auto Focus (AF)
很多单反相机、摄影机都支持自动聚焦功能。一般而言,自动聚焦的精度往往不如手动精细调焦的准确度高,但毕竟自动聚焦使用更加方便,所以有一点误差也不是特别大的问题。
自动聚焦存在三种技术路线,即
- CD,Contrast Detection, 通过比较图像对比度寻找最合适的聚焦位置
- PD,Phase Detection,通过检查光线的相位关系寻找最合适的聚焦位置
- DP,Dual Pixel,基于PD原理的一种技术,通过使用两种特别的像素提取聚焦位置信息
CDAF
光路特点
基于CD 原理实现的AF 技术具有一个显著的有点,就是光路结构比PDAF 简单很多。它不需要额外的光学棱镜,不需要微透镜,也不需要额外的电路构造。它用软件算法直接分析sensor 捕捉的主图像就可以判断图像是否聚焦良好。而PDAF 技术则往往需要在sensor 上设计一些特别的光学、像素、电路等构造以提供关于聚焦状态的数据。这些特别的像素通常被称为聚焦点(AF points)。CDAF 的算法也可以借用聚焦点的概念,只不过CD 算法的聚焦点是算法任意指定的,并不对应sensor 上的一些特别物理构造,因此也没有数量上的限制。
对焦原理
CDAF 对一个图像序列进行分析,找到对比度最大的一帧图,这个方法也叫做最大值法(maximum-seeking method)。
算法特点
最大值法的优缺点都很明显。其优点是仅需要考虑聚焦点附近一个小区域的像素,因此计算压力比较小,对于手持应用可以节省功耗。其缺点是需要抓拍多帧图像。如果只给一帧图像,CD 算法无从知晓当前图像是否聚焦良好,也不知道距离理想的聚焦位置还有多远,甚至不知道正确的方向是focus near还是focus far(PDAF 则刚好可以解决这些问题)。
PDAF
AF 组件
一些相机(常见于单反)会设计一个专用的光路(AF组件)用于检测聚焦状态。典型的光路由一个分光棱镜(beam splitter)和两个微透镜(microlens)组成,每个微透镜后面会有一个专用的AF sensor(包含若干个像素)用于检测像点的精确位置。如果一个物点所对应的像点落在分光棱镜的合适位置上,则像点会出现在两个AF sensor的中间位置,表示聚焦良好;否则就是too near 或者 too far,如下图所示。
一些单反相机的AF功能采用了类似的原理,但实现方式略有不同。典型的光路如下图所示。
PD sensor
上节讨论的AF 方案通常用于单反相机,以专用AF组件的方式出现。在很多其它应用中(如手机)很难有足够的空间容纳专用AF组件,所以经常会采用另外一种PD原理,即把一部分成像用的像素用不透光的挡住一半(分成左和右两种),设计成如下所示的AF相位检测像素,
这种特殊的像素以一定密度均匀地分布在像素矩阵中,为AF软件提供聚焦参考。而AF的工作原理与下节将要介绍的DP原理类似。
DPAF
Dual Pixel,每个像素分成两个子像素。对焦时,两种像素单独输出,得到A像和B像,通过A、B之间的距离判断失焦相位。正式拍摄时A、B像素合并成一体,输出一幅图像。
如下图所示,当对焦不良时,A像和B像整体相似,但空间上存在若干个像素的距离。而对焦良好时,A像和B像应完全重合。
PD 与DP 讨论
PD sensor 方案使用少量像素帮助对焦,工艺更加简单,但是由于信息较少,对焦所需的时间会更久。DP sensor 方案每个像素都提供对焦信息因此速度更快,但是工艺也更加复杂,成本通常更高一些。
CDAF 对焦函数
Tenengrad 函数一种常用的图像清晰度评价函数,它使用Sobel算子提取水平和垂直方向的梯度值。经过Sobel算子处理后的图像的平均灰度值,值越大,代表图像越清晰。
图像的Tenengrad值定义为
I(x,y)是输入图像,Gx,Gy 为 Sobel算子,在另一文章中有介绍。
暗通道
暗通道理论出自何凯明博士的2009年CVPR最佳论文"Single Image Haze Removal Using Dark Channel Prior",主要解决了图像去雾问题。何凯明博士的研究发现,在绝大多数正常图像的非天空的局部区域里,RGB颜色通道中总会有一些颜色通道具有很小的值。
令J(x)代表一幅RGB彩色图像,则暗通道图像的数学定义是
式中c表示彩色图像的每个通道 ,Ω(x)表示以像素X为中心的一个窗口。
下面是一些常见场景的暗通道图像,可以看到非零像素的密度很小,称为稀疏图像。
在有雾存在的情况下,暗通道图像的密度(非零像素的数量)会显著增加。
有人提出使用图像暗通道的方法评估对焦质量。
王佳松, 孙海江, 江山, 王嘉成. 一种灰度梯度暗通道图像自动调焦方法. 液晶与显示, 2018, 33(8): 669-675.
研究发现,暗通道图像的L0范数(即非零元素的个数)与图像对焦效果存在强关联,函数的陡峭性优于暗通道的平方和算子,单峰性优于Tenengrad算子。