3D 生成重建029-Turbo3D一个让3D生成大模型更快的思路

news/2024/12/13 11:22:57/

3D 生成重建029-Turbo3D一个让3D生成大模型更快的思路


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验结果

0 论文工作

提出了Turbo3D,一个超快速文本到三维系统,能够在不到一秒钟内生成高质量的 Gaussian splatting 模型。Turbo3D 采用了一个快速的四步四视图扩散生成器和一个高效的前馈高斯重建器,两者都在潜在空间中运行。四步四视图生成器是一个学生模型,通过一种新颖的双教师方法进行蒸馏,该方法鼓励学生模型从多视图教师学习视图一致性,从单视图教师学习真实感。通过将高斯重建器的输入从像素空间转移到潜在空间,我们消除了额外的图像解码时间,并将Transformer序列长度减半,以实现最大效率。改方法在与之前的基准相比,展示了优越的三维生成结果,同时运行时间也只有一小部分。
目前来看生成三平面转3DGS的效果是不如直接生成mesh的。

paper
相关论文
LRM
CRM
LGM
hunyuan3D
DMV3D

1 论文方法

请添加图片描述
上图是论文的流程图,论文为了加速做了两个工作,一个就是加速多视图生成工作,另外一部分就是直接微调GS-LRM用latets直接生成3DGS,这部分实际上相当于节约了decode和多视图编码的时间。

请添加图片描述
这部分就是论文的核心工作。Turbo3D 旨在解决现有文本到三维模型生成方法速度慢和质量差的问题。它采用了一个两阶段流水线:
快速多视图扩散生成器: 首先,利用一个经过双教师蒸馏训练的四步四视图扩散模型,从文本提示快速生成多视角的潜在表示 (约0.32秒)。 双教师蒸馏方法同时利用多视图教师模型学习视图一致性,利用单视图教师模型学习照片级真实感,从而在速度和质量上取得平衡。
高效前馈重建器: 然后,利用一个高效的前馈重建器,直接从多视角潜在表示重建高质量的三维高斯 splatting 模型 (约0.03秒)。 通过将重建器的输入从像素空间转移到潜在空间,减少了计算量,提高了效率。

双教师蒸馏: 这是Turbo3D的核心创新点。它巧妙地将多视图一致性和照片级真实感这两个目标结合起来,通过双教师蒸馏方法训练一个快速的多视图扩散生成器。这种方法不仅提高了生成速度,而且显著提升了生成质量,避免了只用单一教师模型蒸馏可能导致的模式坍塌和细节丢失问题。

潜在空间重建: Turbo3D 将三维模型重建过程从像素空间转移到潜在空间进行。这大大减少了计算量,显著提高了重建速度和效率。
高效的四步四视图扩散生成器: 通过设计一个四步四视图扩散生成器,在保证生成质量的同时,显著缩短了生成时间。
端到端、单阶段推理: Turbo3D 的整个流程是端到端的,并且只需要单阶段推理即可生成最终的三维模型,进一步提高了效率。

2 实验结果

整体来看实验结果还是要差一些,有点dreamGS时候那种分辨率低模糊跟细节缺失的感觉。
请添加图片描述


http://www.ppmy.cn/news/1554746.html

相关文章

信奥赛CSP-J复赛集训(bfs专题)(5):洛谷P3395:路障

信奥赛CSP-J复赛集训(bfs专题-刷题题单及题解)(5):洛谷P3395:路障 题目描述 B 君站在一个 n n n\times n nn 的棋盘上。最开始,B君站在 ( 1 , 1 ) (1,1) (1,1) 这个点,他要走到 …

OpenCV图片添加水印

函数效果图: 本来只有蓝色背景,这两个人物是水印添加上去的 原理: 本实验中添加水印的概念其实可以理解为将一张图片中的某个物体或者图案提取出来,然后叠加到另一张图片上。具体的操作思想是通过将原始图片转换成灰度图&#x…

软考-软件设计师-基础知识Chapter01-计算机系统

第一章 计算机系统 计算机系统基础知识 计算机系统硬件基本组成 计算器的基本硬件系统由运算器、控制器、存储器、输入设备、输出设备的5大部件组成。 中央处理单元 中央处理单元(CPU) 是计算机系统的核心部件,它负责获取程序指令、对指…

Java的Mvc整合Swagger的knife4框架

Swagger的介绍 Swagger 是一个规范和完整的框架,用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。使用Swagger,就是把相关的信息存储在它定义的描述文件里面(yml或json格式),再通过维护这个描述 文件可以去更…

PyQt事件机制练习

一、思维导图 二、代码 import sysfrom PyQt6.QtTextToSpeech import QTextToSpeech from PyQt6.QtWidgets import QApplication, QWidget, QLabel, QPushButton, QLineEdit from PyQt6 import uic from PyQt6.QtCore import Qt, QTimerEvent, QTimeclass MyWidget(QWidget):d…

linux内核驱动:pca954x i2c控制器扩展芯片驱动总结

目录 前言一、PCA9548芯片介绍二、驱动说明三、配置流程四、应用操作方式 前言 实际开发项目中可能需要多个i2c控制器对主控SOC芯片以外的i2c设备进行控制,当SOC的自带i2c控制器不够用时可以考虑使用控制器芯片进行扩展; 本笔记总结使用NXP的PCA9548进行…

计算机视觉中的数据增强:方法及其对精度提升的作用

计算机视觉中的数据增强:方法及其对精度提升的作用 随着计算机视觉(Computer Vision, CV)技术的迅速发展,模型在图像分类、目标检测、语义分割等任务上的表现越来越出色。然而,CV模型的表现高度依赖于训练数据的质量和…

论文浅尝 | SAC-KG:利用大语言模型作为领域知识图谱熟练的自动化构造器(ACL2024)...

笔记整理:杜超超,天津大学硕士,研究方向为自然语言处理、大语言模型 论文链接:https://aclanthology.org/2024.acl-long.238/ 发表会议:ACL 2024 1. 动机 知识图谱(KG)在各个专业领域的知识密集…