【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis

以人物为中心的主体到图像的高保真合成，CVPR2024

code：CodeGoat24/Face-diffuser: [CVPR2024] Official implementation of High-fidelity Person-centric Subject-to-Image Synthesis.

paper：2311.10329

背景

研究问题：这篇文章要解决的问题是当前以人物为中心的图像生成方法在生成高保真人物图像时遇到的挑战。具体来说，这些方法在微调预训练的扩散模型时，会导致语义场景的先验知识丢失，并且在联合学习场景和人物生成时，会牺牲生成质量。
研究难点：该问题的研究难点包括：生成高质量的人物图像需要充分微调预训练模型，但这会导致模型忘记丰富的语义场景先验；此外，联合学习场景和人物生成也会导致生成质量下降。
相关工作：现有的以人物为中心的图像生成方法，如Fastcomposer和Subject-diffusion，虽然能够生成个性化图像，但在长时间训练后，模型会过拟合文本描述，忘记丰富的语义场景先验，导致生成质量下降。

方法

这篇论文提出了Face-diffuser，一种有效的协作生成管道，用于解决现有方法中的训练不平衡和质量妥协问题。具体来说，

预训练模型：首先，独立微调两个基于Stable Diffusion的预训练扩散模型，分别用于场景生成（TDM）和人物生成（SDM）。
采样过程：采样过程分为三个阶段：语义场景构建、人物-场景融合和人物增强。

语义场景构建：使用TDM构建初始语义场景。
人物-场景融合：通过一个新的高效机制——显著性自适应噪声融合（SNF），实现TDM和SDM的协作。SNF利用无分类器指导（CFG）响应，自动在显著性感知的方式下融合两个模型的预测噪声。
人物增强：使用SDM进一步细化生成的人物质量。

显著性自适应噪声融合（SNF）：SNF的关键在于观察到无分类器指导响应与生成图像的显著性之间存在稳健的联系。具体公式如下：

其中，∅表示空条件，s表示指导权重，RT和RS分别表示语义场景条件和参考图像条件的噪声差异。

实验

数据集：使用FFHQ-face数据集进行训练，该数据集包含70,000个样本，其中60,000个用于训练，10,000个用于测试。另一个数据集是Single-benchmark数据集，包含15个主题，每个主题有30个文本提示。
训练配置：基于预训练的Stable Diffusion v1-5模型进行训练。SDM的图像编码器使用OpenAI的clip-vit-large-patch14视觉模型。对SDM进行450k步训练，对TDM进行250k步训练，使用4个NVIDIA A100 GPU，设置恒定学习率为1e-5，批量大小为8。
评估：使用身份保留（IP）和提示一致性（PC）两个指标评估单主题和多主题生成质量。IP通过MTCNN进行面部检测，并使用FaceNet计算面部相似度。PC通过CLIP-L/14图像-文本相似度进行评估。

结果

定量结果：Face-diffuser在单主题和多主题图像生成方面均表现出显著优势。与现有的最先进模型Fastcomposer相比，Face-diffuser在多主题生成方面的身份保留提高了0.132，提示一致性提高了0.084。
定性结果：Face-diffuser在生成与给定参考图像和语义场景一致的人物图像方面优于其他基线方法。例如，在生成一个男孩拿着纸的场景时，Fastcomposer和CustomDiffusion未能成功生成该场景。
对比分析：与Fastcomposer和Subject-diffusion的样本进行对比，Face-diffuser在高保真图像生成方面表现更优。

结论

本文提出的Face-diffuser有效地解决了现有以人物为中心的图像生成方法中的训练不平衡和质量妥协问题。通过独立微调两个预训练扩散模型，并利用显著性自适应噪声融合机制，Face-diffuser能够在不同场景中生成高保真的人物图像。广泛的实验验证了Face-diffuser在生成高质量图像方面的有效性和鲁棒性。

打破训练不平衡和质量妥协：Face-diffuser提出了一种有效的协作生成管道，解决了现有以人为中心的图像生成方法中存在的训练不平衡和质量妥协问题。
独立模型和协作机制：开发了两个独立的预训练扩散模型（TDM和SDM），分别用于场景和人物生成，并提出了一种高效的协作机制——基于显著性的自适应噪声融合（SNF）。
三阶段采样过程：将采样过程分为三个阶段：语义场景构建、人物-场景融合和人物增强，确保每个阶段的任务明确且高效。
显著性自适应噪声融合：通过分类器自由指导（CFG）响应，自动在每一步中按显著性进行噪声空间的空间混合，充分利用每个模型的优势。
高质量图像生成：广泛的实验验证了Face-diffuser在生成描绘多个未见人物的多样场景的高保真图像方面的显著有效性和鲁棒性。

关键问题

问题1：Face-diffuser在生成高保真人物图像时，如何解决现有方法中的训练不平衡和质量妥协问题？

Face-diffuser通过独立微调两个预训练扩散模型来解决训练不平衡和质量妥协问题。具体来说，它开发了两个专门的预训练扩散模型：文本驱动扩散模型（TDM）和主体增强扩散模型（SDM）。TDM用于场景生成，而SDM用于人物生成。通过将采样过程分为三个阶段——语义场景构建、人物-场景融合和人物增强，Face-diffuser能够在不同阶段充分利用每个模型的优势。特别是，通过显著性自适应噪声融合（SNF）机制，Face-diffuser在人物-场景融合阶段实现了TDM和SDM的无缝协作，从而生成高保真的人物图像。

问题2：显著性自适应噪声融合（SNF）机制是如何实现TDM和SDM的有效协作的？

显著性自适应噪声融合（SNF）机制通过无分类器指导（CFG）响应来实现TDM和SDM的有效协作。具体步骤如下：