自动化生成工作流?英伟达提出ComfyGen:通过LLM来匹配给定的文本提示与合适的工作流程

news/2024/10/19 13:57:55/

ComfyGen的核心在于通过LLM来匹配给定的文本提示与合适的工作流程。该方法从500个来自用户的多样化提示生成图像,随后使用一系列美学预测模型对生成结果进行评分。这些评分与相应的工作流程形成了一个训练集,包含提示、工作流程及其得分的三元组。

然后提出了两种方法来生成提示特定的工作流程:一种是基于调优的方法,利用用户偏好数据进行学习;另一种是无训练的方法,利用LLM从现有工作流程中选择合适的流程。这两种方法均显示出相较于传统模型和通用工作流程在图像质量上的显著提升。

方法可以在不同的领域和风格中生成更高质量的图像。

相关链接

论文阅读:http://arxiv.org/abs/2410.01731v1

项目主页:https://comfygen-paper.github.io/

论文阅读

摘要

文本到图像生成的实际用途已从简单的单片模型发展为结合多个专用组件的复杂工作流。虽然基于工作流的方法可以提高图像质量,但由于可用组件数量众多、它们之间复杂的相互依赖性以及对生成提示的依赖性,制定有效的工作流需要大量专业知识。

在这里,我们介绍了一种新颖的提示自适应工作流生成任务,其目标是自动根据每个用户提示定制工作流。我们提出了两种基于 LLM 的方法来解决此任务:一种基于调整的方法,从用户偏好数据中学习,以及一种使用 LLM 选择现有流程的无训练方法。与单片模型或通用的、独立于提示的工作流相比,这两种方法都可以提高图像质量。我们的工作表明,依赖提示的流预测为提高文本到图像生成质量提供了一条新途径,补充了该领域现有的研究方向。

方法

标准文本到图像生成流程(顶部)采用单个整体模型将提示转换为图像。然而,用户社区通常依赖于复杂的多模型工作流程,这些工作流程由专家用户为不同场景手工制作。我们利用 LLM 自动合成此类工作流程,以用户的提示为条件(底部)。通过选择与提示更匹配的组件,LLM 可以提高生成图像的质量。

(a) 一个简单的 ComfyUI 管道,使用基础模型和面部恢复块,以及正向和负向提示。(b) 我们训练集中提示、流对的分数分布。(c) 具有不同分数的流针对同一提示生成的示例图像。分数越高,结果越详细、越生动,伪影越少。

实验

GenEval 提示的定性结果。ComfyGen 在多主题提示、着色和属性绑定方面表现更佳,但定位方面可能存在困难。

HPS V2.0 和用户研究胜率。我们将每条基线与 ComfyGenFT(绿色)和 ComfyGen-IC(蓝绿色)进行比较。ComfyGen 变体优于所有基线。

CivitAI提示的定性结果。模型与两类基线进行了比较:整体模型(SDXL,最流行的微调版本和 DPO 优化基线)和固定的与提示无关的流程。我们的方法在人类偏好指标和即时对齐基准方面都优于所有方法。

GenEval 基准测试结果

结论

本文介绍了提示自适应工作流生成任务并介绍了 ComfyGen - 一组解决此任务的两种方法。实验表明这种依赖于提示的流程可以胜过单片模型或固定的用户创建流程,从某种意义上提供了改善下游图像质量的新途径。


http://www.ppmy.cn/news/1540265.html

相关文章

Nature Communications 英国伦敦大学等提出仿生自适应多平面触觉系统,实现机械与振动双重感知结合

触觉,作为人类感知外界并与之互动的重要方式,赋予了人类以辨识物体多重特性(诸如纹理、硬度、可塑性及重量)与捕捉微妙线索(例如感知心跳或精准定位动脉振动)的能力。这一感官机制不仅深化了人类对周围世界…

大厂面试真题-说说Redis的cluster模式的故障转移和自动恢复

说这个之前要先介绍一下Gossip Gossip 在Redis中,Gossip是一种用于节点之间通信和信息传播的协议。以下是关于Redis中Gossip的详细解释: 一、定义与功能 定义: Gossip协议,又称流言协议或八卦协议,是一种分布式系统…

C#基础-面向对象的七大设计原则

目录 1.开放封闭原则(OCP) 2.单一职责原则(SRP) 3.依赖倒置原则(DIP) 4.里氏替换原则(LSP) 5.接口隔离原则(ISP) 6.合成复用原则(CRP&#…

vue中加载GLB模型,计算模型的长宽高、绘制模型的边框线

项目环境版本 vue:2.6.12threejs: 0.169.0node: 16.20.0 需求背景 主页面点击预览按钮,默认显示弹框,并且加载GLB模型文件点击弹框中的功能按钮,计算GLB模型的长宽高点击弹框中的功能按钮,绘制GLB模型的边框线(长方…

LeetCode_2235. 两整数相加_java

1、问题 2235. 两整数相加https://leetcode.cn/problems/add-two-integers/ 给你两个整数 num1 和 num2,返回这两个整数的和。 示例 1: 输入:num1 12, num2 5 输出:17 解释:num1 是 12,num2 是 5 &am…

SpringTask的学习

cron表达式 cron表达式其实就是一个字符串,通过cron表达式可以定义任务触发的时间,构成规则:分为6或7个 域,由空格分隔开,每个域代表一个含义每个域的含义分别为:秒、分钟、小时、日、月、周、年(可选) cron表达式在线生成器: https://cron…

Matching——网络游戏大厅匹配设计

众所周知,网络游戏大厅匹配系统,一直是游戏很最重要的一环!在很多游戏中都是必不可少的的一环。比如,MOBA类 Dota,LOL,吃鸡 大地图这类,都少不了匹配,在服务器设计中也就成了很重要的…

2.计算机网络_IP地址

IPv4的IP地址 1、分类IP IP地址的表示方式: IP地址在整个互联网中是唯一的,指明了连接到某个网络上的一个主机。IP地址用32位二进制数表示,每一个字节代表一段,如下图IP地址即为128.11.3.31。 什么是多归属主机: 当…