SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读

一、概述

二、相关工作

1、NVI新视角插值

2、稀疏视角重建

OOD-NVS-toc" style="margin-left:80px;">3、OOD-NVS

4、无约束重建下的正则化技术

5、基于学习的2D-to-3D模型

6、3D点云处理技术

三、SplatFormer

1、Point Transformer V3

2、特征解码器

3、损失函数

四、数据集

五、实验

一、概述

该论文提出一种新的模型SplatFormer用于减少训练数据分布之外的视角数据（Out-of-Distribution，OOD）下进行新视图合成情况下的泛化性差，存在视角伪影的情况。SplatFormer通过利用PointTransformer学习输入视角中的包含的多视角信息，学习一个3D渲染先验来提高最终渲染质量。

（1）提出了一个OOD-NVS实验协议，对于新视角合成任务在处理训练数据分布之外的测试数据中遇到困难的情况，被定义为OOD-NVS。

（2）提出一种基于学习的SplatFormer模型，改进3DGS在OOD情况下存在的伪影，并首次将Point Transformer引入3DGS处理中，有效地利用从输入视角集中得到的多视角信息来学习3D渲染先验，这是以往3DGS方法缺乏的。

（3）SplatFormer在OOD-NVS任务中显著提高了3DGS方法的性能，在以对象为中心的场景中取得了实质性进展，并且在无边界环境下存在应用潜力。

二、相关工作

1、NVI新视角插值

Novel View Interpolation（NVI）主要利用已有图像之间的几何和纹理信息，通过中间插值的方法生成新的视角。

NVI是NVS领域的一种方法，一般应用于VR,AR领域，使用插值算法进行生成图像，而不是使用CNNs或者GANs的方法。

在近期的NVS领域专注于NeRF和3DGS，但在OOD任务中渲染新视图中遇到了很大困难。

2、稀疏视角重建

从稀疏视角重建一般少于4张图像，比如Zero123等方法从单输入图像中预测NeRF或者多视图图像。要么就是生成多视图输入之后传递到二维扩散模型中，用于创造性任务，要么就是直接从稀疏视图中预测三维参数pixelsplat和latentsplat。

OOD-NVS">3、OOD-NVS

与标准的插值设定不同，Nerfbusters沿着不同的轨迹捕获输入和测试视图，并基于DSDS损失来减少NeRF优化中的伪影和几何缺陷，使得模型在wild scene中更具鲁棒性，但是貌似对鬼影的定义不太明确，但与该论文的OOD-NVS问题紧密一致。但是该方法的输入和测试视图观测角度保持相对相似，但该论文认为伪影由“不可见问题”引起，也就是测试视图在观测视角之外。

4、无约束重建下的正则化技术

几何先验方法：SuGaR、2DGS、GeoGaussian，应用人工定义的自我监督损失，使得高斯溅射与表面几何形状对齐。

空间正则化约束：SplatFields，ZeroRF，整合深度图像先验，规范3DGS和NeRF重建。

数据驱动的先验：FSGS、DNGaussian，吸取上述两种方法缺少外部数据的不足，通过使用深度立体模型监督深度图，但存在尺度模糊问题。

InstantSplat，通过密集点云来初始化3DGS，但难以收敛。

Nerfbusters通过扩散模型预训练后处理NeRF，但没解决鬼影的本质。

Appearance priors的方法使用2D扩散模型来规范新视图渲染，但难以保证多视图一致性。SSDNeRF，HypNeRF利用对象为中心的数据集进行预训练，但在多类别情况下表现不佳。

5、基于学习的2D-to-3D模型

SyncDreamer和ViewDiff对预训练扩散模型进行微调，从一个或多个输入视图生成多视角图像。

PixelNeRF和MVSplat由于计算资源约束，只能同时处理少量输入视图，不能利用更多的多视图来提高新视图合成的性能。

6、3D点云处理技术

从稀疏卷积到MLPs到最近的Transformer的方法。Point Transformer通过关注模型的空间关系，被证明特别有效。该论文使用Point Transformer来细化3DGS，并且通过捕捉原始点云不规则的空间关系，来提高新视图合成的保真度。

三、SplatFormer

SplatFormer框架的原理：首先利用低仰角图像训练3DGS初始化高斯参数，再利用Point Transformer v3将高斯参数输入，用于修正3DGS的参数，更加关注与空间结构中的多视角信息。

1、Point Transformer V3

PTV3定义为 $f_{\theta}$ ，首先我们利用低仰角图像训练3DGS初始化参数得到 $\left \{G_k \right \}^K$ ，之后利用PTV3模型通过一个2D的损失来训练一个3D的参数，具体来说：通过PTV3 $f_{\theta}$ 将高斯参数编码为一个v维向量 $\left \{ v_k \right \}^K$ 。