利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像

概述

论文地址：https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
迪士尼的研究部门正在提供一种新的图像压缩方法，利用开源Stable Diffusion V1.2 模型，以比竞争方法更低的比特率生成更逼真的图像。

Disney 压缩方法与之前方法的比较。作者声称改进了细节恢复，同时提供了一种不需要数十万美元训练的模型，并且比最接近的等效竞争方法运行速度更快。

新方法（定义为“编解码器”）与传统编解码器相比，其复杂性有所增加，例如 JPEG格式（LDM）。在定量测试中，它在准确性和细节方面优于以前的方法，并且所需的训练和计算成本明显减少。

新研究的关键见解是量化错误 (a 中心过程在所有图像压缩中）类似于噪声 (a 中心过程在扩散模型中）

因此，可以将“传统”量化图像视为原始图像的噪声版本，并在 LDM 的去噪过程中使用它来代替随机噪声，以便以目标比特率重建图像。

进一步比较迪士尼的新方法（以绿色突出显示）与其他方法的对比。

作者认为：

“[我们] 将量化误差的消除作为一项去噪任务，使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程，并且不需要对扩散模型进行架构更改，从而可以使用基础模型作为强大的先验，而无需对主干进行额外的微调。

“我们提出的编解码器在定量真实感指标方面优于以前的方法，并且我们验证了即使其他方法使用两倍的比特率，我们的重建在质量上也更受最终用户的青睐。”

然而，与其他试图利用扩散模型压缩能力的项目一样，输出可能幻觉的细节。相比之下，JPEG 等有损压缩方法将产生明显扭曲或过度平滑的细节区域，普通观众可能会认为这是压缩限制。

相反，由于视频的粗糙性质，迪士尼的编解码器可能会改变源图像中不存在的背景细节。可变自动编码器（VAE）用于在超大规模数据上训练的典型模型。

“与其他生成方法类似，我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而，在特定情况下，这可能会导致重建不准确，例如弯曲直线或扭曲小物体的边界。

“这些都是我们所构建的基础模型的众所周知的问题，可以归因于其 VAE 的特征维度相对较低。”

虽然这对于艺术描绘和休闲照片的逼真度有一定影响，但在具有此功能的编解码器普及的情况下，它可能会在小细节构成重要信息的情况下产生更关键的影响，例如法庭案件的证据、面部识别的数据、光学字符识别（OCR）的扫描以及各种其他可能的用例。

在人工智能增强图像压缩技术发展的初期，所有这些可能的情况都还很遥远。然而，图像存储是一项超大规模的全球性挑战，涉及数据存储、流媒体和电力消耗等问题，以及其他问题。因此，基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明，最好的编解码器并不总是赢最广泛的用户群，当许可和专有格式的市场占领等问题成为采用的因素时。

迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年，新论文的一位研究人员参与了基于 VAE 的项目以改善视频压缩。

迪士尼的新报纸于 10 月初进行了更新。今天该公司发布了一份附带 YouTube 视频。该项目标题为 使用基础扩散模型进行有损图像压缩，来自苏黎世联邦理工学院（隶属于迪士尼的 AI 项目）和迪士尼研究中心的四位研究人员。研究人员还提供了补充文件.

实现方式

新方法使用 VAE 将图像编码为其压缩潜在表征。在此阶段，输入图像由派生的功能 – 基于低级向量的表示。然后将潜在嵌入量化回比特流，并量化回像素空间。

然后将该量化图像用作噪声的模板，该噪声通常为基于扩散的图像提供种子，并具有不同数量的去噪步骤（其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡）。

新 Disney 压缩方法的架构。

在新系统中，可以通过训练神经网络来控制量化参数和去噪步骤总数，该神经网络可以预测与编码相关的相关变量。这个过程称为 _自适应量化_迪士尼系统使用恩特罗弗默框架作为驱动该过程的熵模型。

作者指出：

“直观地讲，我们的方法学会丢弃在扩散过程中可以合成的信息（通过量化变换）。因为量化过程中引入的误差类似于添加[噪声]，而扩散模型在功能上是去噪模型，所以它们可以用来消除编码过程中引入的量化噪声。”

Stable Diffusion V2.1 是系统的传播主干，之所以选择它，是因为整个代码和基础权重是公开的。然而，作者强调他们的模式适用于更广泛的模型。

这一过程的经济性的关键在于 时间步长预测，它评估了最佳去噪步骤数——效率和性能之间的平衡行为。

时间步长预测，最佳去噪步长数以红色边框表示。请参阅源 PDF 以获得准确的分辨率。

在预测最佳去噪步骤数时，需要考虑潜在嵌入中的噪声量。

数据与测试

该模型是在 Vimeo-90k 数据集。图像被随机裁剪为 256x256px，每个时代（即模型训练架构每次完全摄取精炼的数据集）。

该模型针对 300,000 步进行了优化，学习率 1e-4。这是计算机视觉项目中最常见的，也是最低且最细粒度的一般可行值，作为数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。

作者对经济而有效的系统的一些后勤考虑进行了评论*：

“在训练过程中，通过扩散模型的多次传递来反向传播梯度的成本非常高，因为它在直通车采样。因此，我们只执行一次 DDIM 采样迭代，并直接使用 [此] 作为完全去噪的 [数据]。’

用于测试系统的数据集是柯达; CLIC2022;和可可 30k. 数据集根据 2023 年 Google 提供 使用条件生成器进行多现实主义图像压缩.

使用的指标是峰值信噪比峰值信噪比（PSNR）；学习感知相似性度量（低密度聚乙烯保护系统）；多尺度结构相似性指数（MS-SSIM）；和弗雷谢起始距离（最终鉴定）。

测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括高保真生成图像压缩（HiFiC）；和医学硕士（对 HiFiC 做出了一些改进）。

基于扩散的系统 使用条件扩散模型进行有损图像压缩 （疾病预防控制中心）和 使用基于分数的生成模型进行高保真图像压缩 （高频频谱分析仪）。

与各种数据集上的先前框架相比的定量结果。

对于定量结果（如上图所示），研究人员指出：

“我们的方法在重建图像的真实性方面树立了新的领先水平，在 FID 比特率曲线中超越了所有基线。在某些失真指标（即 LPIPS 和 MS-SSIM）中，我们的表现优于所有基于扩散的编解码器，同时仍与性能最高的生成编解码器保持竞争力。

“正如预期的那样，我们的方法和其他生成方法在以 PSNR 衡量时会受到影响，因为我们更喜欢感知上令人愉悦的重建，而不是精确复制细节。”

对于用户研究，我们采用了两种强制选择 (2AFC) 方法，在锦标赛环境中，受欢迎的图像将进入后续轮次。该研究使用了 ELO 最初为国际象棋锦标赛开发的评级系统。

因此，参与者将查看并从各种生成方法中呈现的两个 512x512px 图像中选择最佳图像。进行了一项额外的实验，其中所有通过对同一用户的图像比较进行评估，蒙特卡洛模拟超过 10,0000 次迭代，结果中显示中位数分数。

针对用户研究估算的 Elo 评分，包含每次比较的 Elo 锦标赛（左）以及每个参与者的 Elo 锦标赛，值越高越好。

以下是作者的评论：

“从 Elo 得分可以看出，我们的方法明显优于其他所有方法，甚至与 CDC 相比也是如此，CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略，情况都是如此。”

在原始论文中，以及补充 PDF中，作者提供了进一步的视觉比较，其中一个在本文前面展示过。然而，由于样本之间的差异很小，我们请读者参考源 PDF，以便公平地判断这些结果。

论文最后指出，其提出的方法比竞争对手 CDC 的运行速度快两倍（分别为 3.49 秒和 6.87 秒）。论文还指出，ILLM 可以在 0.27 秒内处理图像，但该系统需要繁重的训练。

总结

ETH/Disney 的研究人员在论文的结论中明确指出，他们的系统可能会产生虚假细节。然而，材料中提供的所有样本都没有涉及这个问题。

平心而论，这个问题并不局限于迪士尼的新方法，而是使用扩散模型（一种创造性和解释性的架构）来压缩图像的不可避免的附带影响。

有趣的是，仅在五天前，苏黎世联邦理工学院的另外两名研究人员制作了一个纸标题 __用于图像压缩的条件幻觉__该研究探讨了基于人工智能的压缩系统中实现“最佳幻觉水平”的可能性。

作者在那里论证了幻觉的可取性，其中领域是足够通用的（并且可以说是“无害的”）：

“对于类似纹理的内容，例如草地、雀斑和石墙，生成与给定纹理真实匹配的像素比重建精确的像素值更重要；从纹理分布生成任何样本通常就足够了。”

因此，第二篇论文主张压缩应具有最佳的“创造性”和代表性，而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。

人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。