【三维重建】FeatureGS:特征值优化的几何精度和伪影减少3DGS的重构

news/2025/2/22 15:42:10/

文章:https://arxiv.org/pdf/2501.17655
标题:FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

文章目录

  • 摘要
  • 一、引言
  • 二、相关工作:3D特征
  • 三、算法
    • 3.1 Photometric Loss 光度损失
    • 3.2 Geometric Loss
      • 3.2.1 Covariance Matrix
      • 3.2.2 Eigenvalue Normalization 特征值归一化
      • 3.2.3 Gaussians Geometric Loss
      • 3.2.4 Gaussians Neighborhoods Geometric Loss
    • 3.3 光度-几何损失
  • 四、实验
  • 总结


摘要

  三维高斯溅射(3DGS)是一种功能强大的利用三维高斯数据重建三维场景的方法。然而,高斯模型的中心和表面都不能精确地对齐,这使得它们在点云和网格重建中的直接使用复杂化。此外,3DGS通常会产生artifacts,从而增加高斯数和存储需求

  为了解决这些问题,我们提出了FeatureGS,它将一个基于特征值导出的三维形状特征的附加几何损失项合并到3DGS的优化过程中。目的是提高局部三维邻域的几何精度,提高平面表面结构熵的性质。我们提出了基于高斯分布的“平面性planarity”,以及高斯邻域的“平面度planarity”、“全方差omnivariance”和“特征熵eigenentropy”的几何损失项的四种可选公式。我们对DTU基准数据集的15个场景进行了定量和定性的评估,重点关注以下关键方面:几何精度和伪影减少,由倒角距离测量,和内存效率,由高斯的总数评估。此外,渲染质量是由峰值信噪比监测的。FeatureGS在几何精度方面提高了30%,减少了90%的高斯数,并抑制了浮动伪影,同时保持了可比的光度渲染质量。高斯函数的“平面性”几何损失提供了最高的几何精度,而高斯邻域的“全方差”最多地减少了漂浮物的人为因素和高斯函数的数量。这使得FeatureGS成为一种几何精确、伪影减少和记忆有效的三维场景重建的强方法,从而能够直接使用高斯中心进行几何表示。


提示:以下是本篇文章正文内容,下面案例可供参考

一、引言

  自神经辐射场(NeRFs)[18]的引入以来,几何三维场景重建的创建发展迅速。在nerf中,一个网络通过估计每个位置和方向的颜色和体积密度来隐式地描述场景。相比之下,三维高斯溅射(3DGS)为三维场景和点云重建提供了新的可能性,因为它通过三维高斯分布来表示场景。这些都是椭球状的结构,以缩放、旋转和颜色为特征。在优化过程中,将三维高斯分布投影到图像上。为了最小化渲染图像和训练图像之间的光度误差,对高斯分布进行了细化和适应。与NeRF不同,3DGS中的高斯分布明确地表示了据称存在几何信息的场景。然而,高斯分布的中心和表面并不能直接代表物体表面,这使得它们直接用于三维点云和网格重建显得不切实际。此外,3DGS经常会导致浮动工件,这进一步增加了已经很高的高斯函数,从而增加了存储需求。

在这项工作中,我们提出了FeatureGS,它包含了四种基于特征值导出的三维形状特征的附加几何损失项的不同公式到3DGS的优化过程中。三维形状特征被广泛应用于语义解释和点云分类[25,26]的任务。因此,由一个点及其局部邻域推导出的三维协方差矩阵(三维结构张量)是描述这种形状性质[25]的著名特征。三个特征值 λ 1 ≥ λ 2 ≥ λ 3 ≥ 0 λ_1≥λ_2≥λ_3≥0 λ1λ2λ30对应于一个正交的特征向量系统( ϵ 1 , ϵ 2 , ϵ 3 ϵ_1,ϵ_2,ϵ_3 ϵ1ϵ2ϵ3),表示三个椭球主轴的方向(旋转),对应于三维椭球沿主轴的范围(尺度)。根据特征值的行为,可以描述λ1、λ2和λ3的结构。FeatureGS旨在提高高斯分布的几何精度,通过降低结构熵的局部三维邻域增强平面曲面的性质。首先,与之前的扁平化方法[3,6,9,11]一样,FeatureGS的目标是通过增强高斯特征的“平面性”作为三维特征来实现三维高斯特征的扁平化,以获得更高的高斯中心几何精度。其次,点云的真实物理情况可以用single value[10]的可解释的几何特征来描述。为了增强邻域中三维高斯中心的结构表示,特别是对于与曼哈顿-词假设的人造对象(曼哈顿世界假设Manhattan World Assumption 假设人造环境中的主要结构(如墙壁、地板、天花板等)倾向于沿着三个正交的主方向(通常是笛卡尔坐标系的 xyz 轴)对齐),我们利用了由每个高斯分布的k-最近邻(kNN)得到的邻域三维特征。通过在几何损失中加入“平面性”、“全方差”或“特征熵”的三维特征,加强了具有结构熵的平面为优势的局部三维结构的表征。

我们研究了FeatureGS的不同几何损失项的结合是否可以通过加强高斯和高斯邻域的特定三维形状特性来提高高斯中心的三维几何精度和抑制伪影。评估的重点是倒角云到云的距离,以实现几何三维精度和伪影减少,以及表示场景的记忆效率所需的高斯数总数。虽然我们的主要目标是实现精确的几何表示和有效的内存使用,但我们还报告了渲染质量,通过峰值信噪比(PSNR)来测量,以确保场景重建的一致性。对来自DTU基准数据集的15个场景进行了实验。

通过将三维形状特征属性集成到三维高斯飞溅的优化过程中,FeatureGS在几何精度、浮动伪影抑制和记忆效率之间取得了显著的平衡。FeatureGS提高了几何精度,使高斯中心可以作为一个更精确的几何表示。此外,FeatureGS减少了表示与3DGS相同渲染质量的场景所需的高斯数总数。所得到的三维场景重建与高精度高斯中心的几何表示是伪影减少和记忆效率。

二、相关工作:3D特征

  有几种类型的三维特征用于基于点云的应用程序,如分类、配准或校准。不能直接解释的复杂特征是描述符,如形状上下文3D(SC3D)[8]、定向直方图的签名(SHOT)[22]或快速点特征直方图(FPFH)[20]。相比之下,可解释特征,如局部二维和三维形状特征。为了描述三维点周围的低结构,通常考虑局部邻域中其他三维点的空间排列。因此,三维协方差矩阵,也被称为三维结构张量,是众所周知的,适合于表征三维数据的形状性质。

  它是从点本身和它的局部邻居显式地导出的。三个特征值 λ 1 ≥ λ 2 ≥ λ 3 ≥ 0 λ_1≥λ_2≥λ_3≥0 λ1λ2λ30对应于一个正交的特征向量系统( ϵ 1 , ϵ 2 , ϵ 3 ϵ_1,ϵ_2,ϵ_3 ϵ1ϵ2ϵ3,表示三个椭球主轴的方向(旋转),对应于三维椭球沿主轴的范围(尺度)。基于特征值λ1、λ2和λ3的行为,可以描述线性( λ 1 ≫ λ 2 , λ 3 λ_1≫λ_2,λ_3 λ1λ2λ3)、平面( λ 1 ≈ λ 2 ≫ λ 3 λ_1≈λ_2≫λ_3 λ1λ2λ3)和球形( λ 1 ≈ λ 2 ≈ λ 3 λ_1≈λ_2≈λ_3 λ1λ2λ3)结构。在过去的几十年里,几何三维形状特征的使用已经在不同的领域发表了成千上万的出版物。它们特别用于点云的自动语义解释和分类[24–26]。也用于三维点云的校准[10]或配准[2]

  

三、算法

  使用一个基于三维形状特征的附加几何损失项来描述FeatureGS(图1)。这些特征是由协方差矩阵的特征值推导出来的,并为每个高斯及其邻域高斯的空间结构提供了insights。几何损失与3DGS中使用的光度损失相结合,创建了光度-几何损失

3.1 Photometric Loss 光度损失

    光度损失使用像素级比较,度量渲染图像和真实图像之间的相似性,包括L1损失和结构相似性指数(SSIM)项,以捕捉图像之间的亮度、对比度和结构上的差异:

在这里插入图片描述

3.2 Geometric Loss

  基于特征值推导出的三维形状特征,我们引入了四种不同的新型附加几何损失项,以增强三维高斯分布本身和邻域高斯分布中心的特定性质(见图2)。对于 第一种方法,目标是压平(flatten)高斯 ,以实现高斯中心的高几何精度。这是通过将几何损失项中每个高斯值本身的特征值(scale)(图3a)的三维形状特征“平面性”来实现的; 对于第二种方法,使用协方差矩阵(每个高斯中心的k(kNN)最近邻(图3b)的三维形状特征 ,加入一个基于邻域的几何损失项。为了增强与Manhattan-Word-Assumption一致的人造物体局部三维结构的具体表征,我们加强了平面表面的优势和结构熵(predominance of planar surfaces, structural entropy)。这是通过高斯邻域三维形状特征“平面性”、“全方差”和“特征熵”来完成的,即planarity,omnivariance以及eigenentropy。

在这里插入图片描述

3.2.1 Covariance Matrix

  高斯。3DGS是一种场景的显式三维表示,每个点的特征是缩放、旋转和颜色,包括不透明度。缩放分量可以类似于协方差矩阵的三个特征值 s 1 ≥ s 2 ≥ s 3 ≥ 0 s_1 ≥ s_2 ≥ s_3 ≥ 0 s1s2s30,旋转分量可以解释为协方差矩阵的特征向量 ( ε 1 、 ε 2 、 ε 3 ) (ε_1、ε_2、ε_3) ε1ε2ε3。通过使用高斯协方差矩阵的归一化特征值(尺度)(图3a),我们计算了三维形状特征。

  高斯邻域。三维空间中高斯的中心点 p 0 p_0 p0,它的k近邻{ p 1 , p 2 , . . . , p k p_1,p_2,...,p_k p1,p2,...,pk}。该邻域的质心,以及邻域(图3b)的协方差矩阵计算为:

在这里插入图片描述

3.2.2 Eigenvalue Normalization 特征值归一化

在这里插入图片描述
然后将归一化的特征值 s 1 ′ s 2 ′ s 3 ′ s'_1s'_2s'_3 s1s2s3 λ 1 ′ λ 2 ′ λ 3 ′ λ'_1λ'_2λ'_3 λ1λ2λ3按降序排列

3.2.3 Gaussians Geometric Loss

  平面性度量了高斯分布与平面结构相似的程度;平面性高斯损失,偏向于高平面性:

在这里插入图片描述

  

  

3.2.4 Gaussians Neighborhoods Geometric Loss

  为了增强人造物体的三维点云所表现出的结构特性,我们使用每个点的k-近邻合并了一个基于邻居的几何损失。通过几何邻域损失,实现了局部邻域中具有减少的结构熵的平面表面的表征

   Neighborhood Planarity与保持单个高斯的平面性类似,我们希望根据Manhattan-Word-Assumption和其他(几乎)平面表面来增强人造物的性质,并抑制高斯在邻域内的球面扩散。因此,除了高斯分布的平面性外,我们还利用邻域的平面性,以及对应的neighborhood planarity loss

在这里插入图片描述

   Neighborhood Omnivariance全方差表示邻域的体积,并表示点是否分散在局部各个方向上,是点云分类的一个高度相关的特征。最小化邻域全方差损失,能减少点的局部分散:

在这里插入图片描述

   Neighborhood Eigenentropy特征熵通过基于归一化特征值测量局部三维邻域内的熵来量化邻域点局部结构的有序/无序性,是一个很好的三维特征来表征平面点云结构。特征熵和邻域特征熵损失定义如下,最小化邻域特征熵损失有利于最小化无序性,从而降低三维点的熵

在这里插入图片描述

3.3 光度-几何损失

在这里插入图片描述

四、实验

  数据集与指标。数据采用DTU,由真实对象场景组成,包括49或64张RGB图像、相应的相机姿态,以及从结构化光扫描仪(SLS)获得的参考点云。评估采用了三维几何精度,需要表示场景的高斯数(兼顾效率和渲染质量)。三维评估采用了倒角cloud-to-cloud距离。表面精度的评估,使用DTU评估程序[14],它mask out了10 mm以上的点(后处理:剔除距离参考表面即GT表面超过 10 mm 的点,来过滤掉重建结果中的噪声和离群点,从而提高表面精度评估的可靠性)。此外,我们对所有点使用倒角cloud-to-cloud距离来评估对象外部的floater artifacts的存在。低倒角距离表明高精度和较少的伪影。使用dB中的峰值信噪比(PSNR)来评估图像的二维渲染质量

  实验配置。采用NVIDIA RTX3090 GPU上,学习率为:球谐特征0.0025,不透明度调整为0.05,缩放操作为0.005,旋转转换为0.001。训练3DGS15 000次迭代,为了进行公平的比较,我们考虑达到相同PSNR值时提前停止训练。

  优化的光度损失由式1中的损失函数给出,默认为θ = 0.2。公式12选择了 h p h o t o h_{photo} hphoto = 0.05的加权。这是基于超参数调优,见图7,以在渲染质量和几何精度之间创建一个适当的平衡。随着高斯分布的三维分布及其中心通过优化而发生变化,我们确定了一个固定数量的kNN = 50 [26]的近邻。 通过训练过程中点的变量分布和密度,我们的目标是实现类似于多尺度[1]邻域的效果,这在点云分类任务中已被证明是鲁棒性的。

  

  可以观察到,在训练过程中,3DGS的倒角云-云距离(图4)都在不断增加。例如,在场景40的情况下,距离上升到大约50毫米。相比之下,对于所有的几何FeatureGS损失,距离在整个训练过程中始终保持较低。只有轻微的增加,这是由于来自SfM的初始点云具有最高的精度,并且FeatureGS也重建了不在(不完整的)参考点云中的点。对于扫描40,这个距离稳定在4-5毫米左右。这表明,与FeatureGS不同,3DGS训练过程包含了大量具有较高几何不准确性的点。

在这里插入图片描述
  
  

  不同的 h p h o t o h_{photo} hphoto配置下的各种指标:

在这里插入图片描述

  指标对比:

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  
3d5fad4418d9987910660f835bf.png" alt="在这里插入图片描述" />


总结

  

  

  







d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ


http://www.ppmy.cn/news/1573118.html

相关文章

根据deepseek模型微调训练自动驾驶模型及数据集的思路

以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集(如驾驶指令、传感器数据等),并基于PyTorch框架实现。 Step 1: 环境准备 # 安装依赖库 pip install torch transformers datasets n…

网络安全要学python 、爬虫吗

网络安全其实并不复杂,只是比普通开发岗位要学习的内容多一点。无论是有过编程基础还是零基础的都可以学习的。网络安全目前可就业的岗位从技术上可分为两部分:web安全和二进制逆向安全。web安全是网络安全的入门方向,内容简单,就…

使用 Flask 和 pdfkit 生成带透明 PNG 盖章的 PDF 并上传到阿里云 OSS

在现代 Web 开发中,生成 PDF 文档并在其上添加盖章是常见的需求。本文将详细介绍如何使用 Flask 框架和 pdfkit 库来批量生成 PDF,并在其中添加透明 PNG 盖章,最后将生成的 PDF 上传到阿里云 OSS(对象存储服务)。 环境…

渲染相机设置 pyrender cameralib

目录 cameralib 设置相机 numpy获取相机参数: pyrender设置相机: hmr2渲染设置 multi_hmr获取cam_t cameralib 设置相机 cameralib安装教程: cameralib 安装-CSDN博客 import cameralibcamera = cameralib.Camera.from_fov(fov_degrees=55, imshape=(720,1280))intri…

Java 大视界 -- 开源社区对 Java 大数据发展的推动与贡献(91)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

tomcat html乱码

web tomcat html中文乱码 将html文件改成jsp <% page language"java" contentType"text/html; charsetUTF-8" pageEncoding"UTF-8"%>添加 <meta charset"UTF-8">

机器学习_12 逻辑回归知识点总结

逻辑回归是机器学习中一种重要的分类算法&#xff0c;广泛应用于二分类和多分类问题。它不仅能够预测分类结果&#xff0c;还能提供每个类别的概率估计。今天&#xff0c;我们就来深入探讨逻辑回归的原理、实现和应用。 一、逻辑回归的基本概念 1.1 逻辑回归与线性回归的区别…

pythonrsa加密与sha256加密

这个比较有意思&#xff0c;不过我前端不太熟悉&#xff0c;js也是二懂二懂的。 登录校验 最近的业务涉及到这一块&#xff0c;这边分析前端的源代码、发现涉及两种登录方式。 首先在这边找前端源代码 sha256 xxxx: function() {var t a("6c27").sha256;l["…