3D 生成重建030-SV3D合成环绕视频以生成3D

server/2024/12/16 7:36:59/

文章目录

- 0 论文工作
- 1 论文方法
- 2 实验结果

0 论文工作

论文提出了Stable Video 3D (SV3D)——一个用于生成围绕三维物体的高分辨率图像到多视角视频的潜在视频扩散模型。最近关于三维生成的文献提出了将二维生成模型应用于新视图合成 (NVS) 和三维优化的技术。然而，这些方法由于视角有限或 NVS 不一致而存在一些缺点，从而影响了三维物体的生成性能。在这项工作中，作者提出了SV3D，它采用图像到视频的扩散模型进行新视图合成和三维生成，从而利用视频模型的泛化能力和多视角一致性，并为 NVS 添加显式相机控制。作者还提出了改进的三维优化技术，利用 SV3D 及其 NVS 输出进行图像到三维生成。在包含二维和三维指标的多个数据集上的大量实验结果以及用户研究表明，与之前的工作相比，SV3D 在 NVS 和三维重建方面具有最先进的性能。
就目前看到的一些工作来说，在测试中，一半以上的情况视频扩散模型在3D数据上的微调效果没有明显超过直接生成多视图。
paper
github
相关论文
video LDM

1 论文方法

请添加图片描述
SV3D 旨在解决现有图像到三维重建方法中新视角合成(NVS)不一致和三维优化效率低下的问题。它主要包含两个阶段：
新视角合成 (NVS): 首先，利用一个预训练的、图像到视频的潜在视频扩散模型 (SVD)，从单张输入图像生成围绕目标物体的多视角一致的视频帧。该模型具有良好的泛化能力和多视角一致性，并通过显式控制相机参数来实现可控的新视角生成。
三维模型优化: 然后，利用改进的三维优化技术，结合生成的视频帧，优化三维模型（例如NeRF或DMTet网格）。该优化过程使用了改进的遮挡感知分数蒸馏采样(SDS)损失函数，以提高不可见区域的三维重建质量。
利用潜在视频扩散模型进行新视角合成: 这是SV3D最主要的创新点。它不同于以往使用图像扩散模型生成新视角的方法，而是巧妙地利用了潜在视频扩散模型(SVD)的优势。视频模型天生具有时间一致性和泛化能力强的特点，这使得SV3D生成的新视角在一致性和质量上都优于现有方法，并且对不同类型的输入图像具有更好的鲁棒性。
显式相机参数控制: SV3D在生成新视角时，可以显式控制相机参数（例如，方位角和仰角），从而实现对生成视角的精确控制，这在以往的图像到三维重建方法中并不常见，极大提升了可控性。
改进的三维优化技术和遮挡感知SDS损失: SV3D采用改进的三维优化技术，并结合遮挡感知SDS损失函数，能够更有效地利用多视角信息进行三维重建，特别是对于在输入图像中不可见的部分，提高了重建的精度和完整性。