Enhancing Diffusion——利用三维透视几何约束增强扩散模型

概述

透视在艺术中被广泛研究，但现代高质量图像生成方法却缺乏透视精度。新的生成模型引入了几何约束，通过训练过程提高透视精度。这样可以生成更逼真的图像，并提高相关深度估计模型的性能。

最近的图像生成技术使研究人员能够创造性地进行文本到图像的合成。这些模型可以根据各种文字提示生成绘画和照片，但在满足物理限制方面能力有限。手绘艺术强调透视几何，最近的生成模型也通过考虑透视精度来改善逼真度。缺乏物理约束的潜在扩散模型引入了新的损失函数，从而提高了生成图像的物理精确度和逼真度。透视法的准确性对场景的一致性和逼真度有很大影响，与普通模型相比，使用透视损失的拟议模型生成的图像更加逼真。使用这种新损失生成的图像也有利于下游任务的准确性，这表明高级模型的性能得到了提高。

论文地址：https://arxiv.org/abs/2312.00944

视角背景

线性视角

透视在艺术和摄影中尤为重要，是指在三维空间中准确呈现物体的技术。线条透视是其中最常见的一种，它利用了三维空间中平行线汇聚到图像平面上一个点的特性。通常，一幅图画或图像有一到三个消失点，它们决定了图画或图像的风格和视角。地平线是一条水平线，位于观察者眼睛的高度，通常至少有一个消失点位于这条线上。图 2 直观地说明了这些原则。

图像的透视一致性

要验证图像的透视并不容易，因为图像的消失点是三维空间中平行线的交点。对于包含平行线集的图像，可以通过扩展这些平行线并检查所有线对是否相交于同一点来验证透视的一致性。

・自然图像

由于针孔摄像机的透视投影原理，所有不平行的平行线都会汇聚到同一个消失点。

・合成图片

深度学习生成的合成图像与自然图像不同，有时会忽略透视和物理特征。这是因为模型的损失函数主要侧重于图像质量和提示，图 1(a) 就是一个例子。

提高生成图像的透视精度

为提高生成图像的透视精度，可使用[Rombach et al. 2022b] 和[Pinkney 2022]中的代码对模型进行微调。这包括使用传统的损失函数进行训练，并添加新的项和提供地面真实消失点的特殊数据集。

潜在扩散模型在潜在空间中执行正向和反向扩散过程。模型引入了编码器和解码器，负责潜空间的转换。训练损耗的工作原理是从图像的消失点开始扫描一条线，然后计算图像在该线上的梯度总和。潜在扩散模型还有一个透视损失项，用于添加透视先验分布。

如图 3 所示，这种损耗的工作原理是在图像上扫过一条从消失点开始延伸的线，然后计算图像在该线上的梯度总和。该算法的伪代码如下图所示。

新的损失函数可以测量图像中沿线区域的 "边缘相似 "程度。这被称为透视损失，有助于提高图像重建的质量。该损失基于图像中的消失点集合，并在每次随机选择的迭代中进行计算。它在 PyTorch 中实现，是端到端可微分的。

试验

潜在扩散模型训练

该模型是在 LAION 5B 数据库（包含 58.5 亿个图像标题对）上训练出来的。在本文中，该模型被称为基线模型。

・数据集

利用 HoliCity 数据集对基线模型进行了调整。该数据集包含 50,078 幅在伦敦拍摄的实际图像和每幅图像的消失点信息；MiDaS 用于预测每幅图像的深度，然后将其作为潜在扩散模型的条件。使用 BLIP 字幕模型为每张图像生成的字幕用于调整。

・更多培训信息

微调模型代码基于[Rombach et al. 2022b]，原始代码修改自[Pinkney 2022]。对基线模型的损失函数进行了更新和训练，图像分辨率为 512 × 512，学习率为 1e-6，𝜆 = 0.01。使用 4 个 RTX3090 GPU 进行训练耗时约 12 小时，透视损失达到饱和。除了文本到图像的生成，该模型还执行修复图像中缺失区域的任务，应用所提出的约束条件，并使用 LPIPS 指标评估结果。 LPIPS 使用深度神经网络来测量两幅图像之间的感知相似性。

训练单目深度估计模型

在新的实验中，对来自 DPT-Hybrid 和 PixelFormer 的单目深度估算模型进行了评估，这些模型来自基线模型和微调模型。这些模型最初是在 KITTI 数据集上训练的，并使用 SYNTHIA-AL 和 Virtual KITTI 2 数据集的深度图生成合成图像。生成的图像附有使用 BLIP 生成的标题，深度估计模型仅在 vKITTI 生成的图像上进行训练。在训练中，DPT Hybrid 使用了 19500 个步骤，批量大小为 16，学习率为 5e-6；PixelFormer 使用了 20800 个步骤，批量大小为 8，学习率为 4e-6。这意味着，"全部增强 "指的是增强模型生成的 155,000 幅图像，而 "全部基准 "指的是基准模型生成的全部图像。

・测试装置

深度估计模型在常用的 KITTI 数据集上进行训练，并在 KITTI 和 DIODE 户外子集上对其性能进行评估。

・衡量标准

采用[Ranftl 等人，2021 年]的深度估计指标来评估模型。这些指标包括绝对相对误差、平方相对误差、均方根误差、对数均方根误差和阈值𝜏下的阈值精度。

人类主观测试方法

研究人员通过 Prolific 网站上的人类主观测试，评估了微调模型生成图像的逼真度。参与者完成了一项排名任务，并比较了三组基线图像、消融图像和增强图像的逼真度。这些图像取自 HoliCity 数据集，并根据深度图生成；50 名参与者随机对 80 组图像进行评分，并在 90 分钟内完成任务。

消融研究

研究人员进行了两项消融研究，以评估所提出的约束条件的效果。首先，在同一数据集上对基线模型进行微调，并在无损失更新的条件下进行训练（无损失/消融模型）。第二，通过将消失点作为一个条件来训练无损失模型。两个模型使用相同的数据集，并训练单眼深度估计模型。在人类主观测试和无损失模型的修复任务中都进行了消融研究。

实验结果

微调潜在扩散模型

图 5 展示了微调模型生成的一些代表性图像。图中显示了用于微调漫反射模型的深度图，以及基线模型和增强模型生成的图像。基线模型生成的图像显示了影响透视精度的曲线和扭曲，尤其是在难以准确生成高频细节的区域。在图 8 中，在基线模型和增强模型的图像上绘制了透视线。

来自模型的图像显示出更一致的透视线和准确的消失点，失真更少。基线图像的失真度更高，似乎偏离了自然图像的分布。虽然增强型模型在城市景观数据集上进行了微调，但在生成其他自然、动物和室内场景的图像时没有发现任何限制。代表性图像如图 6 所示。

此外，还使用 FID 指标对这些图像进行定量评估[Heusel 等人，2017 年]。本文的模型优于基线模型和无损模型。

在 HoliCity 验证集和景观数据集上，使用定性结果（图 7）和定量结果（表 4）评估了三种模型（基线、消融和扩展）的恢复性能。 LPIPS 指标用于衡量感知相似度，数值越低，修复效果越好。

从表 4 中可以看出，增强模型的性能始终优于基线模型和消融模型，在综合数据集中，增强模型比基线模型提高了 7.1%，比消融模型提高了 3.6%。

估计单眼深度

为了评估微调深度估计模型的性能，我们采用了定性和定量测量方法。定性比较如图 9 所示。

・DPT 混合型

在 KITTI 测试集和 DIODE Outdoor 测试集子集上，使用生成的 vKITTI 数据集对原始 DPT 混合模型进行微调后的模型性能优于原始 DPT 混合模型。使用基线模型生成的图像进行微调的模型的性能也优于所有 DIODE Outdoor 指标（SqRel 除外）。特别是在 DIODE Outdoor 数据集上，原始 DPT 混合模型在五个指标上都优于基准模型，但在没有指标的情况下优于作者的模型。与基准模型相比，作者的模型在 RMSE 和 SqRel 方面分别提高了 7.03% 和 19.3%，在 SqRel 和 SiLog 方面分别提高了 3.4% 和 2.2%。

图 9 显示了原始 DPT 混合模型与根据增强型扩散模型生成的图像进行微调的模型之间的比较。每组图像都包含输入图像、地面实况深度图以及原始模型和增强模型的误差图，同时还显示了每个深度预测的 RMSE 值。作者的模型能更一致地捕捉高频细节，RMSE 值也更低。

・像素前置

使用生成的 vKITTI 数据集和完整数据集对基本 PixelFormer 进行微调，并在 DIODE 户外测试集上进行评估。

使用扩散模型生成的图像对基础 PixelFormer 进行微调，并使用 vKITTI 数据集和完整数据集生成的图像对其进行评估后，微调后的模型在所有指标上都优于原始模型和基于其他训练数据的模型。特别是，与原始模型相比，在完整数据集上训练的模型在 SiLog 方面提高了 11.6%，与基线模型相比提高了 2.4%。