FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization论文学习记录

news/2025/3/29 17:13:48/

3. 提出的方法

我们提出了FreGS,一种具有渐进频率正则化的新型3D高斯溅射方法,它是首个从频率角度缓解3D高斯溅射过度重建问题的方法。图2展示了FreGS的概览。第3.1节简要介绍了原始的3D高斯溅射方法(3D-GS),包括高斯稠密化。第3.2节中,我们首先揭示了频率正则化在解决过度重建问题和改善高斯稠密化方面的有效性。接着,我们描述了在傅里叶空间中用于频率正则化的幅度和相位差异。为了降低高斯稠密化的难度,我们设计了频率退火技术(第3.3节),以实现渐进的频率正则化,这可以逐步利用从低到高的频率成分进行粗到细的高斯稠密化。

3.1 预备知识

3D高斯溅射:3D-GS通过使用各向异性3D高斯分布显式建模场景表示,并通过高效的可微溅射技术实现实时渲染。在结构光束法生成的稀疏点云的基础上,创建了一组3D高斯分布,每个高斯分布由协方差矩阵Σ、中心位置p、透明度α和表示颜色的球面谐波系数表示,其中协方差矩阵Σ由缩放矩阵和旋转矩阵表示以便于可微优化。

高斯稠密化的目标是将初始稀疏的高斯集合转化为更密集的集合,从而增强其对场景的准确表示。主要关注两个情况。第一个是几何特征缺失的区域(对应于重建不足),第二个是由少量大型高斯分布覆盖的大范围高方差区域(对应于过度重建)。这两种情况都会导致对场景中区域的不充分表示。对于重建不足,通过克隆高斯来增加高斯的总数量和体积。对于过度重建,通过将大型高斯分布拆分为多个小型高斯分布来维持总体体积,同时增加高斯数量。

在渲染过程中,通过溅射将3D高斯投影到2D平面上。通过α混合技术计算像素颜色C。具体来说,像素的颜色C可以通过混合N个有序的2D高斯分布来计算,这些高斯分布重叠在像素上,其公式为:

其中,颜色ci​和透明度αi​通过将第i个2D高斯分布的协方差矩阵与每个点的球面谐波系数和透明度相乘来计算。

3.2 频率正则化

在这一节中,我们首先探讨了为什么3D-GS会导致过度重建。我们计算了过度重建区域内像素的平均梯度,并跟踪其随着训练进展的变化。正如图3所示,在使用简单的像素级L1损失时,尽管这些区域的重建效果不佳,但平均梯度可能非常小,这会误导高斯稠密化。具体来说,小的像素梯度被反向传播到该像素和相应的3D高斯分布。因此,这些小梯度的高斯不会通过拆分成更小的高斯进行稠密化,从而导致过度重建。

过度重建的结果是对区域的表示不足,这表现为整体结构(低频信息)和细节(高频信息)的缺失。与像素空间相比,频率空间能够更好地揭示过度重建区域,通过显式分离不同的频率成分。因此,直观地可以通过在频率域中应用正则化来指导高斯稠密化。图3显示,使用频率正则化后,平均像素梯度显著增加,表明其有效性。我们因此得出结论,通过频率正则化,可以在过度重建区域中自适应地进行高斯稠密化。相反,L1损失无法区分过度重建区域和重建良好的区域,导致在重建良好的区域创建了许多冗余的高斯分布。

基于以上分析,我们设计了FreGS,旨在从频率角度提升3D高斯溅射。具体来说,通过最小化渲染图像与对应的真实图像之间的频率谱差异,缓解过度重建问题并改善高斯稠密化。幅度和相位作为频率的两个主要元素,可以捕捉图像的不同信息。因此,我们通过在傅里叶空间中正则化渲染图像I^∈RH×W×C和真实图像I∈RH×W×C之间的幅度和相位差异来实现频率正则化。

在这里,我们详细介绍幅度和相位差异。我们首先将I^和I转换为对应的频率表示F^和F,通过二维离散傅里叶变换。以I为例:

我们提出了一种新方法FreGS,用来改进3D高斯溅射技术,主要是为了避免模型在处理复杂场景时出现过度重建的问题。过度重建是指模型过多地重复表示一些区域,从而影响整体质量。FreGS的关键在于引入“频率正则化”来解决这个问题。以下是FreGS的主要内容:

  1. 3D高斯溅射基础

    • 3D高斯溅射(3D-GS)技术通过使用3D高斯分布来建模场景。它利用高斯分布的中心点、透明度等参数来表示场景中的不同部分。
    • 在渲染时,通过将这些高斯分布投影到2D平面上,计算图像的最终颜色。
  2. 频率正则化

    • 在3D-GS中,过度重建问题常常会出现。这是因为一些区域被过多的高斯分布覆盖,导致模型在这些区域表现不佳。
    • 为了改善这一点,我们在频率空间(即图像的频率表示)中应用正则化。这种方法通过调整图像的频率成分来减少过度重建的问题。
    • 我们计算渲染图像和真实图像之间的频率差异,并用这些差异来指导高斯分布的优化。
  3. 频率退火

    • 为了更有效地利用频率正则化,我们设计了一种“频率退火”技术。这个技术从低频开始,逐步引入高频信息,这样可以更精细地进行高斯分布的优化。
    • 频率退火过程分为两个阶段:开始时只关注低频信息,之后逐步加入高频信息,这样可以避免过度优化高频成分带来的问题。


http://www.ppmy.cn/news/1583251.html

相关文章

docker-镜像制作

前言 镜像制作及原因 镜像制作是因为某种需求,官方的镜像无法满足需求,需要我们通过一定手段来自定 义镜像来满足要求。 制作镜像往往因为以下原因 编写的代码如何打包到镜像中直接跟随镜像发布 第三方制作的内容安全性未知,如含有安全漏洞…

WPF 样式(Style)和模板(Template)

在WPF中,样式(Style)和模板(Template)虽然有不同的用途,但它们可以很好地协同工作。样式中可以设置模板的原因是为了提供一种统一的方式来管理和应用控件的外观定义。以下是详细的原因和机制: 1…

多数据源无缝对接、多维度动态分析和智能化可视化分析

在当今数字化时代,企业数据如同宝藏,而如何有效挖掘并利用这些宝藏,则成为了每个企业都必须面对的挑战。BI(商业智能)数据可视化分析正是解决这一挑战的关键技术之一。在众多BI数据可视化工具中,奥威BI以其…

人工智能-WSL-Ubuntu20.04下Docker方式部署DB-GPT

人工智能-WSL-Ubuntu20.04下Docker方式部署DB-GPT 0 环境及说明1 安装相关依赖2 docker下载dbgpt镜像3 下载向量模型6 运行dbgpt容器并指定配置文件7 访问dbgpt 0 环境及说明 环境项说明测试机型号联想拯救者Y9000PWindows版本Windows 11 专业版 23H2Linux版本Ubuntu20.04.6 L…

数据结构之栈的2种实现方式(顺序栈+链栈,附带C语言完整实现源码)

对于逻辑关系为“一对一”的数据,除了用顺序表和链表存储外,还可以用栈结构存储。 栈是一种“特殊”的线性存储结构,它的特殊之处体现在以下两个地方: 1、元素进栈和出栈的操作只能从一端完成,另一端是封闭的&#xf…

《基于深度学习的指纹识别智能门禁系统》开题报告

个人主页:大数据蟒行探索者 1研究背景 1.1开发目的和意义 指纹识别作为生物特征识别领域的一项重要技术,在安全认证、犯罪侦查和个人身份验证等方面具有广泛应用前景。随着深度学习技术的迅猛发展,基于深度学习的指纹识别系统成为了当前研究…

WebSocket 的错误处理与断线重连

websocket 断线重连 心跳就是客户端定时的给服务端发送消息,证明客户端是在线的 如果超过一定的时间没有发送则就是离线了。 如何判断在线离线? 当客户端第一次发送请求至服务端时会携带唯一标识、以及时间戳,服务端到 db 或者缓存去查询改…

Cursor IDE 入门指南

什么是 Cursor? Cursor 是一款集成了 AI 功能的现代代码编辑器,基于 VSCode 开发,专为提高开发效率而设计。它内置强大的 AI 助手功能,能够理解代码、生成代码、解决问题,帮助开发者更快、更智能地完成编程任务。 基础功能 1.…