【论文阅读】DynamicControl :一种新的controlnet多条件控制方法

news/2024/12/31 2:01:29/

背景

现有方法要么处理条件效率低下,要么使用固定数量的条件,这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件,以实现更可靠和详细的图像合成。为了解决这个问题,我们提出了一个新的框架 DynamicControl ,它支持不同控制信号的动态组合,允许自适应选择不同数量和类型的条件。

本文方法从一个双循环控制器开始,它通过利用预先训练的条件生成模型和判别模型为所有输入条件生成初始真实分数排序。此控制器评估提取条件和输入条件之间的相似性,以及与源图像的像素级相似性。然后,我们集成多模态大型语言模型 (MLLM) 来构建一个高效的条件评估器。此评估器根据双循环控制器的分数排名优化条件的排序。我们的方法联合优化 MLLM 和扩散模型,利用 MLLM 的推理能力来促进多条件文本到图像 (T2I) 任务。最终排序的条件被馈送到一个并行多控制适配器中,该适配器从动态视觉条件中学习特征图,并将它们集成以调制 ControlNet,从而增强对生成图像的控制。 通过定量和定性比较,DynamicControl 证明了它在各种条件控制下的可控性、生成质量和可组合性方面优于现有方法。

![:)DynamicControl 的多个条件生成结果。(:)处理 T2I 任务中多种情况的不同方案的比较。 (a) 使用激活的 MOE 编码器随机选择一个条件,(b) 条件的输入数量是手动固定的,以及 (c) 我们提出的 DynamicControl 提出了一个条件评估器和多控制适配器来自适应地选择条件。

](https://prod-files-secure.s3.us-west-2.amazonaws.com/c24988a6-52b2-41b0-a0ed-cf22fd37e9a1/29321948-1991-4712-9673-36dcc5af90cf/image.png)

:)DynamicControl 的多个条件生成结果。(:)处理 T2I 任务中多种情况的不同方案的比较。 (a) 使用激活的 MOE 编码器随机选择一个条件,(b) 条件的输入数量是手动固定的,以及 (c) 我们提出的 DynamicControl 提出了一个条件评估器和多控制适配器来自适应地选择条件。

观察到的现象:给定来自同一主题的多个条件,如图 1 所示。 2、可以观察到,对于同一个文本提示,不同的条件在颜色、纹理、布局、合理性等方面产生不同的结果。此外,从与源图像相似度的 SSIM 分数中,我们还可以看到,不同的条件难以准确生成与输入源图像一致的图像。这也揭示了不同的条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。因此,在以前的方法中只选择一个或固定数量的条件是次优的,而不考虑它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系。为了解决这个问题,我们提出了 DynamicControl ,这是一个支持不同控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图 1 所示。 1(c) 的。方法

方法

具体来说,我们首先设计一个双循环控制器,旨在为所有输入条件生成初始真实分数排序。在双循环控制器中,利用预先训练的条件生成模型根据每个给定的图像条件和文本提示生成图像,然后使用预先训练的判别模型从生成的图像中提取相应的图像条件。因此,第一个周期一致性定义为提取的条件和每个输入条件之间的相似性。此外,考虑到源图像的像素级相似性,在计算生成的图像与源图像之间的相似性时,进行第二循环一致性。将两个相似度分数组合在一起,这个双循环控制器将给出组合分数排名。然而,这种排名需要为所有具有随机噪声的条件生成初始图像,并且在推理过程中无法获取源图像,这限制了其全部潜力。为了解决这些限制,我们将多模态大型语言模型 (MLLM) (例如 LLaVA) [32, 69] 引入我们的模型中,以构建一个高效的条件评估器。该评估器将各种条件和可提示的指令作为输入,并使用双循环控制器的分数排名优化条件的最佳排序。通过动态选择方案,来自预训练条件评估器的最终排序结果被馈送到并行多控制适配器中,以从动态视觉条件中学习必要的不同级别特征图,其中来自不同视觉条件的独特信息被自适应地捕获。 这样,只有那些对生成的结果和谐且互惠互利的控制条件才会被保留。可以集成输出嵌入以调制 ControlNet [63],从而促进特定于任务的视觉调节控制。因此,我们的 DynamicControl 促进了对生成图像的增强和更和谐的控制。

![提议的 DynamicControl 的整体管道。对于多个条件,我们首先集成一个 MLLM 来构建一个高效的条件评估器来对输入条件进行排序,该条件由双周期控制器监督。然后,自适应地选择来自预训练评估器的排名条件,并将其发送到多控制适配器中,以并行学习动态视觉特征,从而提高生成图像的质量。

](https://prod-files-secure.s3.us-west-2.amazonaws.com/c24988a6-52b2-41b0-a0ed-cf22fd37e9a1/e3188a68-e156-4123-a8d5-cca9da5cdd07/image.png)

提议的 DynamicControl 的整体管道。对于多个条件,我们首先集成一个 MLLM 来构建一个高效的条件评估器来对输入条件进行排序,该条件由双周期控制器监督。然后,自适应地选择来自预训练评估器的排名条件,并将其发送到多控制适配器中,以并行学习动态视觉特征,从而提高生成图像的质量。


http://www.ppmy.cn/news/1559062.html

相关文章

Flink窗口window详解(分类、生命周期、窗口分配器、窗口函数、触发器)

一、窗口的分类 时间窗口:滚动(窗口大小)、滑动(窗口大小、滑动步长)、会话(会话超时时间) 计数窗口:滚动、滑动 二、窗口window的四个关键组件 窗口操作一般在keyby之后调用wind…

什么是WebAssembly?怎么使用?

一、简述 WebAssembly,也称为Wasm,是基于堆栈的虚拟机的二进制指令格式。它被设计为一个可移植的目标,用于编译C、C和Rust等高级编程语言,允许代码以接近本机速度在web浏览器中运行。WebAssembly于2015年由包括谷歌、微软、Mozill…

Python 自动化 打开网站 填表登陆 例子

图样 简价: 简要说明这个程序的功能: 1. **基本功能**: - 自动打开网站 - 自动填写登录信息(号、公司名称、密码) - 显示半透明状态窗口实时提示操作进度 2. **操作流程**: - 打开网站后自动…

AT24C02学习笔记

看手册: AT24Cxx xx代表能写入xxK bit(xx K)/8 byte 内部写周期很关键,代表每一次页写或字节写结束后时间要大于5ms(延时5ms确保完成写周期),否则时序会出错。 页写:型不同号每一页可能写入不同大小的…

4.银河麒麟V10(ARM) 离线安装 MySQL

1. 系统版本 [rootga-sit-cssjgj-db-01u ~]# nkvers ############## Kylin Linux Version ################# Release: Kylin Linux Advanced Server release V10 (Lance)Kernel: 4.19.90-52.39.v2207.ky10.aarch64Build: Kylin Linux Advanced Server release V10 (SP3) /(La…

地理数据库Telepg面试内容整理-如何在数据库中优化大规模空间数据的查询性能

优化大规模空间数据查询的性能是一个复杂但关键的任务,特别是在需要处理海量的地理信息时。空间数据通常涉及复杂的几何对象、空间关系和大范围的查询操作,因此,优化空间数据的查询性能通常需要综合考虑存储、索引、查询方法等多个方面。以下是一些优化大规模空间数据查询性…

Java并发编程框架之综合案例—— 分布式日志分析系统(七)

个人奋斗: "每一次努力都是成功的积累,每一步前进都值得骄傲!""挑战自我,超越极限,成就非凡人生!" 面对困难: "逆风的方向,更适合飞翔,勇敢面对…

Spring创建异步线程池方式

在Java 11中,可以通过多种方式创建异步线程池,包括使用原生的ExecutorService和Spring的异步支持(如Async注解结合线程池)。以下是具体实现方式。 方式 1:使用原生ExecutorService Java 11 的ExecutorService提供灵活…