FFmpeg计算图像的SSIM的原理

SSIM算法基于HVS更擅长从图像中提取结构信息的事实，并且利用结构相似度来计算图像的感知质量。
在Z. Wang等人的论文Multi-scale structural similarity for image quality assessment中也提到， $SS I M$ 算法要好于当时的其它的感知图像质量指标。
SSIM的计算公式：
在这里插入图片描述
SSIM计算中的图像分割
==在整幅图片的跨度上，图像亮度的均值和方差变化较为剧烈；并且图像上不同区块的失真程度也有可能不同；再者人眼睛每次只能聚焦于一处，更关注局部数据而非全局数据。==因此如上的 $SS I M$ 算法不能直接作用于一整副图像。
在论文Image quality assessment: From error visibility to structural similarity中，作者采用 $11 \times 11$ 的滑动窗口将整副图像分割为 $N$ 个patch，然后计算每一个patch的 $SS I M$ ，最后计算所有patch的 $SS I M$ 值的平均数（ $\ \ SSIM:MSSIM$ ）作为整副图像的 $SS I M$ 。
为避免滑动窗口带来的块效应，在计算每个patch的均值 $\mu$ 和方差 $\sigma^2$ 时，作者采用 $\sigma=1.5$ 的高斯卷积核作加权平均。整副图像有 $N$ 个patch，则 $MSS I M$ 的计算公式为：
在这里插入图片描述
FFmpeg计算SSIM的实际实现

FFmpeg提供了计算 $SS I M$ 的实现：
https://github.com/FFmpeg/FFmpeg/blob/master/tests/tiny_ssim.c。
从代码注释中看到：为提升算法性能，没采用论文中的高斯加权方式计算每个patch的 $SS I M$ ，而采用了 $\times 8$ 的块来计算每个patch的 $SS I M$ 。
在这里插入图片描述
standard approximation of overlapped 8x8 block sums

解释一下注释中的standard approximation of overlapped 8x8 block sums 的含义。分解成两个部分来解释：overlapped 8x8 block和sums。
overlapped 8x8 block的含义：
FFmpeg在计算图像 $SS I M$ 时，首先以 $\times 4$ 的块大小把图1所示的分辨率为 $\times H$ 的图像：
在这里插入图片描述
图1：原始图像

在这里插入图片描述
图2：分割后的图像

对图2中的每一块用 $b l oc k (i, j)$ 来表示（图2中的红色块），FFmpeg使用 $b l oc k (i, j)$ 及其上、右、右上块（图2中的绿色块）来计算 $SSIM:SSIM(x_{ij},y_{ij})$ 。
$b l oc k (i, j)$ 及其上、右、右上块构成一个 $8\times8$ 的像素块，并且该 $8\times8$ 块和计算 $b l oc k (i, j + 1)$ 的 $SS I M$ 用到的 $8\times8$ 的块存在重合像素，这就是注释中的overlapped 8x8 block的真正含义。
根据如上规则： $\in [1,\frac{H}{4}],j \in [0,\frac{W}{4}-1]$ ，即第0行和最后一列的块不会计算 $SS I M$ 。最后FFmpeg中的 $SS I M$ 公式为：
在这里插入图片描述
sums的含义

如前所述，分析了FFmpeg计算图像的 $SS I M$ 的整体思路，接下来分析FFmpeg是如何计算 $b l oc k (i, j)$ 的 $SSIM(x_{ij},y_{ij})$ 的，即可解释sums的含义。
首先利用源码中的函数ssim_4x4x2_core()来计算 $b l oc k (i, j)$ 块的结构相似性指标，包含4个指标：
s1：参考图像在 $b l oc k (i, j)$ 块的像素之和
s2：受损图像在 $b l oc k (i, j)$ 块的像素之和
ss：参考图像和受损图像在 $b l oc k (i, j)$ 块的像素平方之和
s12：参考图像和受损图像在 $b l oc k (i, j)$ 块的对应像素乘积之和。
在这里插入图片描述
如上4个指标是后续会用到的sums（4类sum，称为sums），该sums也就是overlapped 8x8 block sums中的sums的概念。

利用sums计算各4x4块的SSIM
接下来利用该sums值计算 $SS I M$ 。为提升效率，FFmpeg会按照行来计算每一行的各个块的sums数据，并将每个行块的sums数据存储在长度为 $\frac{W}{4}$ 的数组指针sum（(int(*)[4])）中。
sum指针有两种：

sum0：存储当前行的各块的sums结果
sum1：存储当前行的上一行的sums结果

先计算第 $i - 1$ 行块和第 $i$ 行块的sums结果，并分别存入sum1和sum0中。然后遍历第 $i$ 行块的每一个块，并利用sum1和sum0中计算的结果来计算每一块的 $SS I M$ 。
函数ssim_end4()展示了如何利用 $b l oc k (i - 1, j)$ ， $b l oc k (i - 1, j + 1)$ ， $b l oc k (i, j)$ ， $b l oc k (i, j + 1)$ 的sums信息来计算 $SSIM(x_{ij},y_{ij})$ ：

先对4个块的sums结果进行加和处理，得到 $8\times8$ 块的sums结果
利用该 $8\times8$ 块的sums来计算 $b l oc k (i, j)$ 的 $SS I M$
源码中ssim_end1()展示了如何利用 $8\times8$ 块的sums信息来计算 $SS I M$ 。具体的计算方法如下。
将红色区块 $b l oc k (i, j)$ 的图像放大一点，如图3所示。我们接下来计算其 $SS I M$ 。

图3： $b l oc k (i, j)$ 的示意图

在计算时，首先将4个区块的sums值求和，得到 $8\times8$ 区块的sums值，分别为：
在这里插入图片描述
利用如上的公式对 $SS I M$ 的公式进行计算可以得到：

FFmpeg源码中，对 $C_1$ 和 $C_2$ 的定义中的因子64或63也是根据上面的公式，但是从公式看，FFmpeg对ssim_c1的计算少乘了64：

为简化计算，FFmpeg还做了如下的定义：