Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读

server/2024/11/25 11:29:21/

目录

一、概述

二、相关工作

1、单场景3DGS

2、跨场景生成3DGS

3、几何方法解决3D任务

三、eFreeSplat

1、预训练跨视角模块 

2、无外极线跨视角交互感知模块

3、迭代跨视角高斯对齐

4、高斯参数预测


一、概述

        该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同,eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。

(1)不依赖于极线约束实现可推广的新视角合成,而通过自监督的ViT和跨视角注意力。

(2)提出了一种迭代跨视角高斯对齐(ICGA)技术,确保不同视角之间的深度尺度一致,解决了渲染过程中出现的伪影和像素位移问题。

(3)eFreeSplat在几何重建和新视角合成质量方面均优于依赖于极线约束的方法。

二、相关工作

1、单场景3DGS

        单场景3D高斯散射(3DGS)方法标志着3D场景表示的一个重要转变。它使用数百万个可学习的3D高斯分布来显式地将空间坐标映射到像素值,通过光栅化的散射方法提高了渲染效率和质量,并增强了各种下游任务。与早期的3D神经表示方法[]相比,3DGS可以实现实时渲染和可编辑性,同时计算需求大大降低。现有的单场景3DGS相关方法需要通过昂贵的逐场景梯度反向传播过程获得每个场景的密集视角。而该论文,我们采用单个前馈网络,仅使用两个图像就可以推断高斯原语的参数。

2、跨场景生成3DGS

        跨场景泛化是一种从少量观测合成新场景视图的方法。利用从大规模多视角数据集学习的鲁棒先验,可以直接生成新场景的视图,消除了需要针对每个场景进行重新训练的限制。

        pixelSplat和LatentSplat利用外极性Transformer来寻找跨视图对应关系和学习每个像素的深度分布。然而在非重叠和封闭区域会性能下降,导致不准确的几何形状和表面重建。Splatter Image合并了来自单视图回归的高斯参数,但缺乏跨视角信息。GPS-Gaussian和MVSplat通过成本体积和特征匹配来获得更好的几何信息。Triplane-Gaussian通过单视图编码为潜在三维点云和三平面的特征,并通过MLP解码器输出三维高斯参数。然而这侧重于单视图重建,而不能做到跨视图的重建。

3、几何方法解决3D任务

        基于重投影特征、成本体积和图像变形等几何先验的方法在3D视觉任务中表现良好,但这些方法依赖于特定任务的设计,在复杂场景如遮挡或视角不重叠时会遇到困难。

        为了解决这一问题,一些无几何先验的替代方法被提出,如SRT和GS-LRM。这些方法摒弃了任何显式的几何归纳偏差,但由于缺乏针对性的场景编码,它们要么局限于特定数据集,要么计算效率和碳足迹都不可接受。

        一些无需姿态的可泛化的NVS方法,如LEAP和PF-LRM,也是无极线先验的。但由于缺乏已知的相机姿态,它们在执行极线采样时面临挑战,通常需要通过特殊设计的特征表示来降低任务复杂度,但这也会降低模型的泛化能力。

        与上述方法不同,该论文的eFreeSplat关注数据驱动的3D先验,不需要任何耗时复杂的结构化特征表示,如体积代价。它利用自监督的跨视角完成预训练来恢复图像中被遮挡的部分,显著增强了下游3D视觉任务的性能。

三、eFreeSplat

        eFreeSplat的框架分为预训练跨视角模块,无外极线跨视角交互感知模块,迭代跨视角高斯对齐,高斯参数预测。

1、预训练跨视角模块 

        利用CroCo v2模型,一个基于自监督跨视角预测被遮挡图像区域的模型,对输入图像其一进行了一定的图像掩码操作,另一个不做影响,也就是上图存在一定掩码的图像,经过ViT+Cross-Attention,通过预测被遮挡的图像区域来学习跨视角的空间关系,实现自监督的跨视角预训练,也为后续的大规模数据集上学习到鲁棒性的几何偏差和后续全局3D表示提供支撑。

2、无外极线跨视角交互感知模块

        直接共享上一模块的权重,有效获得跨视角的3D几何先验,并且通过跨视角交互,来输出两张图片的特征F_1,F_2

3、迭代跨视角高斯对齐

        首先用2D U-Net,预测每个像素点的高斯深度d和特征G。之后计算第一视图的特征G_1在第二视图上的投影特征G_{1,2},并与第一视图的特征G_1进行相似度,计算得到相似度S_1S_2

        最后使用S_1S_2更新第一视图的高斯特征G_1和深度d_1,并将更新后的特征和深度再次作为输入,进行下一轮迭代。

4、高斯参数预测

        首先基于细化的深度和相机参数预测每个视图的高斯中心\mu

        之后对于其他的参数基于额外的U-Net方法预测\Sigma,\alpha,SH

        最后利用3DGS中的可微渲染来重建模型。

参考项目:eFreeSplat


http://www.ppmy.cn/server/144779.html

相关文章

Spring AI Fluent API:与AI模型通信的流畅体验

引言 随着人工智能(AI)技术的飞速发展,越来越多的应用场景开始融入AI技术以提升用户体验和系统效率。在Java开发中,与AI模型通信成为了一个重要而常见的需求。为了满足这一需求,Spring AI引入了ChatClient&#xff0c…

书生浦语实战训练营L1G5000

XTuner 微调个人小助手认知任务 记录复现过程并截图。 基础任务(完成此任务即完成闯关并获得 100 算力点) 使用 XTuner 微调 InternLM2-Chat-7B 实现自己的小助手认知,如下图所示(图中的尖米需替换成自己的昵称)&…

springboot 使用笔记

1.springboot 快速启动项目 注意:该启动只是临时启动,不能关闭终端面板 cd /www/wwwroot java -jar admin.jar2.脚本启动 linux shell脚本启动springboot服务 3.java一键部署springboot 第5条 https://blog.csdn.net/qq_30272167/article/details/1…

安卓手机5G网络频繁掉4G 问题解决 手机5G网络优化方案

问题环境 在某个长期停留的位置(例如:躺平)使用手机时网络突然从5G跳到4G,偶尔跳来跳去导致网络体验很差,经过调整5G网络情况下网速及其他体验都要更好,基于这样的情况使用一种简单的操作,锁定5…

生成式AI;语义通信技术;生成式AI辅助的云边协同算法及其可解释性

目录 生成式AI 语义通信技术 生成式AI辅助的云边协同算法及其可解释性 一、端到端设计的物理层内生智能 二、生成式语义通信 三、生成式数字孪生网络 四、生成式AI辅助的云边协同算法及其可解释性 五、未来可能的研究方向 生成式AI 是一种人工智能技术,它能够从大量数…

Pytorch|mnist手写数字识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊 一、 前期准备 1. 设置GPU 如果设备上支持GPU就使用GPU,否则使用CPU import torch import torch.nn as nn import matplotlib.pyplot as plt import torchvi…

【vim】使用 gn 组合命令实现搜索选中功能

gn是Vim 7.4新增的一个操作(motion),作用是跳到并选中下一个搜索匹配项。 具体说,Vim里执行搜索后,执行n操作只会跳转到下一个匹配项,而不选中它。但是我们往往需要对匹配项执行一些修改操作,例…

【优选算法】KMP模式匹配算法 {算法介绍;算法原理:核心原理,如何求next数组;代码实现}

一、算法介绍 KMP算法,全称Knuth-Morris-Pratt算法,是一种线性时间复杂度的字符串匹配算法。该算法由D.E.Knuth、J.H.Morris和V.R.Pratt提出,因此也称为克努特—莫里斯—普拉特操作。它主要用于在一个较长的字符串(称为主串或目标…