东京大学联合Adobe提出基于指令的图像编辑模型InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑。

server/2025/1/13 6:08:09/

东京大学联合Adobe提出的InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

相关链接

  • 论文:http://arxiv.org/abs/2412.12087v1

  • 主页:https://ljzycmd.github.io/projects/InstructMove/

论文介绍

通过观察事物如何移动的基于指令的图像操作

摘要

本文介绍了一种新颖的数据集构建流程,该流程从视频中抽取帧对并使用多模态大型语言模型 (MLLM) 生成编辑指令,以训练基于指令的图像处理模型。视频帧本质上保留了主体和场景的身份,确保在编辑过程中内容保存的一致性。此外,视频数据捕捉了各种自然动态(例如非刚性主体运动和复杂的相机运动),否则很难建模,使其成为可扩展数据集构建的理想来源。使用这种方法,我们创建了一个新数据集来训练 InstructMove,该模型能够进行基于指令的复杂操作,而这些操作很难通过合成生成的数据集实现。我们的模型在调整主体姿势、重新排列元素和改变相机视角等任务中表现出最先进的性能。

方法

数据构建管道:

  1. 首先从视频中采样合适的帧对,确保转换逼真且适度。

  2. 这些帧对用于提示多模态大型语言模型 (MLLM) 生成详细的编辑指令。

  3. 此过程会产生一个具有逼真图像对和精确编辑指令的大规模数据集。

基于指令的图像编辑的模型架构概述。首先使用预训练编码器将源图像和目标图像编码为潜在表示 zs和 ze。然后通过前向扩散过程将目标潜在 z e转换为噪声潜在 zet。沿宽度维度连接源图像潜在和噪声目标潜在以形成模型输入,该输入被输入到去噪 U-Net ϵθ 中以预测噪声图。输出的右半部分(对应于噪声目标输入)被裁剪并与原始噪声图进行比较。

结果

与最先进的图像编辑方法进行定性比较,包括基于描述和基于指令的方法。现有方法难以处理复杂的编辑,例如非刚性变换(例如姿势和表情的变化)、对象重新定位或视点调整。它们通常要么无法遵循编辑说明,要么产生不一致的图像,例如身份转变。相比之下,论文的方法在具有自然变换的真实视频帧上进行训练,成功处理了这些编辑,同时保持了与原始输入图像的一致性。

该方法与附加控制的定性结果。

  1. 模型可以利用掩码来指定要编辑图像的哪个部分,从而实现局部调整并解决指令中的歧义。

  2. 与 ControlNet 结合使用时,该模型可以接受其他输入,例如人体姿势或草图,以实现对主体姿势或物体定位的精确编辑。 以前的方法无法实现这种级别的控制。

结论

文章提出了一种对视频帧进行采样并利用 MLLM 生成编辑指令以训练基于指令的图像处理模型的方法。与依赖于合成生成的目标图像的现有数据集不同,该方法利用来自视频和 MLLM 的监督信号来支持复杂的编辑,例如非刚性变换和视点变化,同时保持内容一致性。未来的工作可以集中在改进过滤技术上,无论是通过改进 MLLM 还是结合人机交互过程,以及将视频数据与其他数据集集成以进一步增强图像编辑功能。


http://www.ppmy.cn/server/157206.html

相关文章

保证Mysql数据库到ES的数据一致性的解决方案

文章目录 1.业务场景介绍1.1 需求分析1.2 技术实现方案 2.业界常用数据一致性方案分析2.1 同步双写方案2.2 MQ异步双写方案2.3 扫表定期同步方案2.4 监听binlog同步方案 1.业务场景介绍 1.1 需求分析 某知名的在线旅游平台,在即将到来的春季促销活动之前&#xff…

Redis之key过期和删除事件

Redis中的事件是通过订阅/发布(sub/pub)功能来实现的。在redis中,某个key的过期事件和该key的删除事件,是不一样的。 对于每个redis的数据库操作,redis都会生成一个对应的事件。这些事件,形似以“__keyeven…

VUE3配置后端地址,实现前后端分离及开发、正式环境分离

新建.env.development及.env.production .env.development 指定开发环境地址.env.production 指定生产环境地址 格式如下 VITE_APP_BASE_APIhttp://localhost:8070只需要在对应文件写入对应的后端地址即可 修改env.d.ts /// <reference types"vite/client" /…

Kubernetes 使用自定义资源(CRD)扩展API

K8s CRD 即 Kubernetes CustomResourceDefinition&#xff0c;是 Kubernetes 提供的一种扩展机制&#xff0c;允许用户在 Kubernetes 集群中定义和使用自定义的资源类型。通过定义 CRD&#xff0c;用户可以在 Kubernetes 集群中创建、读取、更新和删除自定义资源对象&#xff0…

如何在 Ubuntu 22.04 上安装 Apache Tomcat 10 服务器教程

简介 在本教程中&#xff0c;我们将解释如何在 Ubuntu 22.04 上为 Java 应用程序安装 Apache Tomcat 10。 通过这份全面的分步教程&#xff0c;学习如何在 Linux 服务器上安装和配置 Apache Tomcat。从安装 Java 和下载 Tomcat 到设置专用用户和配置访问权限&#xff0c;本指…

了解RabbitMQ的工作原理

RabbitMQ是一个开源的消息代理系统&#xff0c;实现了高级消息队列协议&#xff08;AMQP&#xff09;。在现代分布式系统中&#xff0c;特别是在微服务架构中&#xff0c;RabbitMQ有广泛的应用。本文将详细介绍RabbitMQ的工作原理&#xff0c;并通过实践案例帮助读者理解和应用…

GTX750Ti打DP补丁

背景 咸鱼收了一个二手的GTX750Ti,用于4K60Hz显示器,HDMI接口勉强可以4K60Hz,不过色彩和帧率都不是太正常,理论上它的HDMI接口是不支持的,原本也是打算用DP接口接显示器的,但是发现接DP口之后无法通过bios的vga检测最终一直重启,在华硕B760-K的BIOS中使能CSM是可以使用…

数据结构之线性表

1.什么是线性表 线性表的概念 定义&#xff1a;线性表是由n个数据元素组成的有限序列。每个数据元素&#xff08;除了第一个和最后一个&#xff09;都有且仅有一个前驱和一个后继。逻辑结构&#xff1a;线性表的逻辑结构可以用一个序列来表示&#xff0c;例如 L(a1,a2,…,an)。…