英伟达发布 Edify 3D 生成模型，可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。

英伟达发布 Edify 3D 生成模型，可以利用 Agents 自动判断提示词场景中需要的模型，生成后将他们组合为一个场景。

Edify 3D 可以在两分钟内生成详细的、可用于生产的 3D 资源、生成有组织的 UV 贴图、4K 纹理和 PBR 材质。

论文介绍

介绍

创建高质量的3D资产对于视频游戏设计、扩展现实、电影制作和模拟等行业至关重要，在这些行业中，3D内容必须满足严格的生产标准，如精确的网格结构、高分辨率纹理和材质贴图。满足这些标准既耗时又需要专业知识，这一需求推动了人工智能驱动的3D资产生成研究。然而，用于模型培训的3D资产的有限可用性带来了挑战，突出了对可扩展，高效解决方案的需求。

Edify 3D通过在两分钟内生成详细的，生产就绪的3D资产，生成有组织的UV地图，4K纹理和PBR材料来解决这些挑战。Edify 3D使用多视图扩散模型和基于transformer的重建，可以从文本提示或参考图像合成高质量的3D资产，实现卓越的效率和可扩展性。

方法

管道Edify 3D。 给定一个文本描述，一个多视图扩散模型综合了描述对象的RGB外观。生成的多视图RGB图像然后用作使用多视图ControlNet合成表面法线的条件（Zhang et al., 2023）。接下来,一个重建模型以多视图RGB和normal图像作为输入，预测神经网络三维使用一组潜在令牌表示。这是随后的等值面提取和后续网格后处理，获得网格几何形状。一个升级控制网被用来增加纹理分辨率，调节网格栅格化以生成高分辨率的多视图RGB 图像，然后将其反投影到纹理图上。

多视图扩散模型

多视图图像生成过程通过对相机姿态的调节，将文本到图像的扩散模型适应为姿态感知的多视图扩散模型。给定文本提示和相机方向，这些模型从多个角度合成物体的外观。变体包括生成RGB外观的基本模型，基于RGB合成和文本生成表面法线的ControlNet模型，以及基于纹理和表面法线的高分辨率输出的升级ControlNet。在Edify Image模型的基础上，增强的自注意层支持交叉视图注意，而通过轻量级MLP编码的相机姿势被集成为时间嵌入。

多视图扩散模型可以有效地缩放，在更多的视点上进行训练，产生更自然和一致的图像。在推理过程中，该模型可以对任意数量的视点进行采样，同时保持多视点的一致性，有利于全面覆盖目标，提高下游3D重建的质量。

重建模型

从图像中提取3D结构，通常被称为摄影测量，是许多3D重建任务的基础。我们的方法使用基于transformer的模型从多视图图像中生成3D网格几何、纹理和材质图，对未见物体具有很强的通用性，包括合成的2D扩散输出。基于RGB和normal图像的模型条件来预测潜在的三面表示，从而实现基于sdf的PBR属性体绘制。神经SDF通过等值面提取转换为3D网格，将PBR属性烘焙到纹理和材料映射中。后处理包括四网格重新拓扑，UV映射和烘烤PBR属性，从而产生适合艺术应用的可编辑，设计就绪的资产。

重建模型展示了有效的可扩展性，随着输入视点数量的增加，性能也在提高。重建质量也受益于更多的训练视图，进一步提高准确性。此外，使用相同的模型，重建质量随三平面令牌大小缩放，证明了其对可用计算资源的适应性。