Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis 论文解读

news/2024/11/30 0:25:32/

目录

一、概述

二、相关工作

1、单场景3DGS

2、跨场景生成3DGS

3、几何方法解决3D任务

三、eFreeSplat

1、预训练跨视角模块 

2、无外极线跨视角交互感知模块

3、迭代跨视角高斯对齐

4、高斯参数预测


一、概述

        该论文设计了一种不依赖于极线约束的情况实现可推广的新视角合成。与现有依赖于极线约束的方法不同,eFreeSplat利用自监督的ViT和跨视角交叉自注意力完成预训练来捕捉跨稀疏视角的3D结构信息。

(1)不依赖于极线约束实现可推广的新视角合成,而通过自监督的ViT和跨视角注意力。

(2)提出了一种迭代跨视角高斯对齐(ICGA)技术,确保不同视角之间的深度尺度一致,解决了渲染过程中出现的伪影和像素位移问题。

(3)eFreeSplat在几何重建和新视角合成质量方面均优于依赖于极线约束的方法。

二、相关工作

1、单场景3DGS

        单场景3D高斯散射(3DGS)方法标志着3D场景表示的一个重要转变。它使用数百万个可学习的3D高斯分布来显式地将空间坐标映射到像素值,通过光栅化的散射方法提高了渲染效率和质量,并增强了各种下游任务。与早期的3D神经表示方法[]相比,3DGS可以实现实时渲染和可编辑性,同时计算需求大大降低。现有的单场景3DGS相关方法需要通过昂贵的逐场景梯度反向传播过程获得每个场景的密集视角。而该论文,我们采用单个前馈网络,仅使用两个图像就可以推断高斯原语的参数。

2、跨场景生成3DGS

        跨场景泛化是一种从少量观测合成新场景视图的方法。利用从大规模多视角数据集学习的鲁棒先验,可以直接生成新场景的视图,消除了需要针对每个场景进行重新训练的限制。

        pixelSplat和LatentSplat利用外极性Transformer来寻找跨视图对应关系和学习每个像素的深度分布。然而在非重叠和封闭区域会性能下降,导致不准确的几何形状和表面重建。Splatter Image合并了来自单视图回归的高斯参数,但缺乏跨视角信息。GPS-Gaussian和MVSplat通过成本体积和特征匹配来获得更好的几何信息。Triplane-Gaussian通过单视图编码为潜在三维点云和三平面的特征,并通过MLP解码器输出三维高斯参数。然而这侧重于单视图重建,而不能做到跨视图的重建。

3、几何方法解决3D任务

        基于重投影特征、成本体积和图像变形等几何先验的方法在3D视觉任务中表现良好,但这些方法依赖于特定任务的设计,在复杂场景如遮挡或视角不重叠时会遇到困难。

        为了解决这一问题,一些无几何先验的替代方法被提出,如SRT和GS-LRM。这些方法摒弃了任何显式的几何归纳偏差,但由于缺乏针对性的场景编码,它们要么局限于特定数据集,要么计算效率和碳足迹都不可接受。

        一些无需姿态的可泛化的NVS方法,如LEAP和PF-LRM,也是无极线先验的。但由于缺乏已知的相机姿态,它们在执行极线采样时面临挑战,通常需要通过特殊设计的特征表示来降低任务复杂度,但这也会降低模型的泛化能力。

        与上述方法不同,该论文的eFreeSplat关注数据驱动的3D先验,不需要任何耗时复杂的结构化特征表示,如体积代价。它利用自监督的跨视角完成预训练来恢复图像中被遮挡的部分,显著增强了下游3D视觉任务的性能。

三、eFreeSplat

        eFreeSplat的框架分为预训练跨视角模块,无外极线跨视角交互感知模块,迭代跨视角高斯对齐,高斯参数预测。

1、预训练跨视角模块 

        利用CroCo v2模型,一个基于自监督跨视角预测被遮挡图像区域的模型,对输入图像其一进行了一定的图像掩码操作,另一个不做影响,也就是上图存在一定掩码的图像,经过ViT+Cross-Attention,通过预测被遮挡的图像区域来学习跨视角的空间关系,实现自监督的跨视角预训练,也为后续的大规模数据集上学习到鲁棒性的几何偏差和后续全局3D表示提供支撑。

2、无外极线跨视角交互感知模块

        直接共享上一模块的权重,有效获得跨视角的3D几何先验,并且通过跨视角交互,来输出两张图片的特征F_1,F_2

3、迭代跨视角高斯对齐

        首先用2D U-Net,预测每个像素点的高斯深度d和特征G。之后计算第一视图的特征G_1在第二视图上的投影特征G_{1,2},并与第一视图的特征G_1进行相似度,计算得到相似度S_1S_2

        最后使用S_1S_2更新第一视图的高斯特征G_1和深度d_1,并将更新后的特征和深度再次作为输入,进行下一轮迭代。

4、高斯参数预测

        首先基于细化的深度和相机参数预测每个视图的高斯中心\mu

        之后对于其他的参数基于额外的U-Net方法预测\Sigma,\alpha,SH

        最后利用3DGS中的可微渲染来重建模型。

参考项目:eFreeSplat


http://www.ppmy.cn/news/1551040.html

相关文章

力扣第 72 题 编辑距离

一、题目描述 给你两个单词 word1 和 word2,请返回将 word1 转换为 word2 所使用的最少操作数。 你可以对一个单词进行如下三种操作: 插入一个字符;删除一个字符;替换一个字符。 二、解题思路 1. 问题分析 这是一个最优子结构…

Chrome://常用的内部页面地址

Chrome浏览器提供了一系列特殊的内部页面来用于开发和调试,可以通过在地址栏中输入以chrome://开头的协议来访问。 这些页面用于各种高级设置、实验性功能、诊断信息和浏览器工具等。 一些常用的内部页面: 协议用途chrome://settings/打开Chrome的设置…

量化交易系统开发-实时行情自动化交易-8.1.TradingView平台

19年创业做过一年的量化交易但没有成功,作为交易系统的开发人员积累了一些经验,最近想重新研究交易系统,一边整理一边写出来一些思考供大家参考,也希望跟做量化的朋友有更多的交流和合作。 接下来会对于TradingView平台介绍。 T…

C# 常量

文章目录 前言一、整数常量(一)合法与非法实例对比(二)不同进制及类型示例 二、浮点常量三、字符常量四、字符串常量五、定义常量 前言 在 C# 编程的世界里,常量是一类特殊的数据元素,它们如同程序中的 “定…

SpringBoot连接测试InfluxDB时序数据库

1&#xff09;创建一个Springboot项目&#xff0c;在pom.xml引入influxDB相关的包 <!-- influxdb --><dependency><groupId>org.jetbrains.kotlin</groupId><artifactId>kotlin-stdlib</artifactId><version>1.8.10</version>…

【ANC系统】主动噪声控制系统结构分类

1. 根据是否获取参考信号划分 前馈 ANC 系统&#xff08;Feedforward ANC&#xff09; 原理&#xff1a;前馈 ANC 系统的基本工作原理是利用参考信号来生成反噪声。参考信号通常是由传感器检测到的“初级噪声”信号&#xff0c;系统在噪声发生之前就进行干预。参考信号通常是直…

从 App Search 到 Elasticsearch — 挖掘搜索的未来

作者&#xff1a;来自 Elastic Nick Chow App Search 将在 9.0 版本中停用&#xff0c;但 Elasticsearch 拥有你构建强大的 AI 搜索体验所需的一切。以下是你需要了解的内容。 生成式人工智能的最新进展正在改变用户行为&#xff0c;激励开发人员创造更具活力、更直观、更引人入…

Git工作原理与常用方法汇总

Git的工作原理 Git是一种分布式版本控制系统&#xff0c;其工作原理包括以下几个关键步骤&#xff1a; 工作区&#xff08;Working Directory&#xff09;&#xff1a;你在本地的项目目录&#xff0c;包含所有项目文件。暂存区&#xff08;Staging Area&#xff09;&#xff…