3D Gaussian Splatting 论文学习

概述

目前比较常见的渲染方法大致可以分为2种：

将场景中的物体投影到渲染平面：传统的渲染管线就是这种方式，主要针对Mesh数据，可以将顶点直接投影成2D的形式，配合光栅化、深度测试、Alpha混合等就可以得到渲染的图像。
从相机到像素发出一条射线与场景物体交互去计算沿着射线的颜色积分：例如光线追踪，去计算光线和Mesh的光学行为（反射等）来得到像素的颜色值；或是体渲染，对于体数据或是隐式的场景表达（NeRF）通过采样的方式来计算一个光线上的离散的积分，得到最终的颜色。

隐式的场景表达因为其连续性天然具有可微性，比较适合放在优化框架中去使用，但是在渲染时由于需要随机采样，会浪费大量时间在无效的采样点上。3D高斯这个方法则结合了连续可微和投影后光栅化渲染的优势，实现了高质量的实时渲染效果。

接下来我以一些关键知识点为章节来进行总结：

3D高斯表示

3D高斯实际上就是点云+概率密度，使得场景离散化表示的同时对不存在顶点的空间有了连续的颜色变化。一个高斯球的数学形式可以表示为
$G(x)=\exp{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}$
其中 $\Sigma$ 是协方差矩阵， $\mu$ 是高斯球的重心坐标（均值）。论文中省略了高斯分布的归一化系数，这是因为我们并不需要得到严格的概率分布，只需要表达对空间的相对影响就行了。协方差矩阵 $\Sigma$ 是一个正定对称矩阵，是场景学习时的优化参数，如果直接优化一个3x3的矩阵很难满足高斯分布的性质，因此往往将其分解为旋转矩阵 $R$ 和缩放矩阵 $S$ ，即
$\Sigma=RSS^TR^T$
然后缩放用一个三维的向量表示，旋转用一个四元数表示。

以上的概率分布实际上定义了一个类似“椭球”的形状，用来表示某个高斯球对空间的影响程度，除此之外对每个高斯球还需要不透明度 $\alpha$ 和颜色信息。不透明度好理解，一个[0,1]的浮点数，深度排序后用来影响颜色的混合。而颜色信息，论文中用了四阶球谐函数（0, 1, 2, 3，每个颜色分量对应16个参数）来表示。因为我之前对球谐函数不太了解，所以这里简要总结一下球谐函数：

球谐函数（Spherical Harmonics），可以用来拟合球面函数 $\rho=f(\theta,\phi)$ 。实际上球谐函数就是一组基函数，怎么理解基函数呢？类似傅里叶展开的基函数为 $\{sin(p\theta),cos(q\theta)\}$ ，用他们的线性组合可以拟合任意一个周期函数；也类似我们刚接触机器学习的欠拟合和过拟合时都会遇到的例子，用多项式去拟合数据点，也可以把 $\{1,x,x^2,\dots,x^k\}$ 作为基函数，每个基函数前面乘的参数作为可学习的参数。

而用于拟合球面函数常用的基函数就是球谐函数
$S_m^l(\theta,\phi), \ -m\le l\le m$
它的具体形式就不展开了，需要再查吧，总之对于一个 $m$ 阶（ $m\ge0$ ）的球谐函数，它有 $2 m + 1$ 种变化。而对于一个任意的球面函数 $f(\theta,\phi)$ ，我们用 $k$ 阶球谐函数去拟合的方式为
$f(\theta,\phi)=\sum_{m=0}^k \sum_{l=-m}^m C_m^l S_m^l(\theta,\phi)$
注意我这里的阶数是从0开始的。需要学习的参数是 $C_m^l$ ，总共有 $k+1)^2$ 个。

对于某个高斯球的颜色RGB，论文中每个分量用一个3阶（或者说是4阶，看从0还是1开始）球谐函数表示，总共48个参数，这样就可以根据任意视角 $(\theta,\phi)$ ，查询这个高斯球的颜色了。

综上所述，每个3D高斯球有以下几个属性：

位置： $(x, y, z)$
缩放向量，四元数：表示高斯分布的协方差矩阵
不透明度：opacity $\alpha$
颜色：球谐函数拟合 $C(\theta,\phi)$

图片渲染

假设所有的高斯球已经训练好，要怎么渲染成2D的图像呢？前面也讲到过，像NeRF是发射光线，然后沿着光线进行采样对颜色做离散积分，如果套用到3D高斯的话，就要在光线路径上采样，然后计算所有（或者附近）的高斯球在该采样点的颜色。然而论文方法名称里叫“Splatting”，顾名思义就是“溅射”，或者说是“抛雪球”，比较形象的解释了高斯球的渲染方式：直接投影到2D。

给定一个视图变换（世界坐标到相机坐标）矩阵 $W$ ，相机坐标下某个高斯球的协方差矩阵为
$\Sigma'=JW\Sigma W^TJ^T$
其中 $J$ 为投影变换的仿射近似的雅各比矩阵，假设投影变换 $x^{'} = p (x)$ ，那么 $J=\frac{\partial p}{\partial\mu}$ ，投影变换就可以近似为 $x'=p(\mu)+J(x-\mu)$ 。其实就是把一个非线性的投影变换近似成一个线性变换，使得3D高斯投影后还是一个2D高斯。

至此，图片的渲染就可以对每个像素点，按照距离（深度）对所有高斯球排序，然后根据深度和不透明度以及二维高斯分布计算累加的颜色。论文还提出了一种加速方式，就是将图片分为16x16的小块，每一块按照一定置信度找到受影响的所有高斯球进行排序，后续就不再对每个像素单独排序了，并且每个小块只计算被影响的高斯球的颜色叠加。这样GPU上的每个Block处理一个小块，共享内存，每个Thread再处理一个像素点，光栅化过程就会非常非常快。

训练策略

训练流程如下图所示

先用SFM（Structure From Motion，例如Colmap）将多视角图片转为点云，然后进行高斯球的初始化，然后再进行迭代训练以及进行高斯球密度的调整。

高斯球密度调整策略一般每过一定迭代次数调整一次，大致类型如下：

对于不透明度低于一定阈值的高斯球，直接删除（说明是空的，对应区域没有物体）；
对于位置梯度（也就是对高斯球中心坐标那三个参数求导）过大的区域，可能有两种情况：
1. 欠拟合：说明高斯球无法很好的填充周围的空白区域，于是克隆一个新的相同的高斯球；
2. 过拟合，高斯球填满了周围的区域，还溢出了很多，于是分割成两个更小的高斯球