【生成模型之十三】SmartEraser

server/2025/2/5 13:29:17/

论文:SmartEraser: Remove Anything from Images using Masked-Region Guidance

代码: https://github.com/longtaojiang/SmartEraser

类型:fine-tuned diffusion model

其他:支持简历修改面试辅导

一、背景

到目前为止,对象移除一直由“mask-and-inpaint”范式主导,在这种范式中,mask区域被排除在输入之外,而模型则依赖于未mask区域来inpaint缺失的区域。 然而,这种方法缺乏mask区域的上下文信息,通常会导致性能不稳定。在这项工作中,我们介绍了SmartEraser,它采用了一种名为“Masked-Region-Guidance”的新“remove”范式构建。这种范式保留了输入中的mask区域,并将其用作删除过程的指导。

它提供了几个明显的优点:(a)它引导模型准确识别要删除的对象,防止其在输出中再重新生成;(b)由于用户掩码经常超出对象本身,因此它有助于在最终结果中保留周围的上下文;利用这一新范式,我们提出了Syn4Removal,这是一个大规模的对象删除数据集,其中实例分割数据用于将对象复制并粘贴到作为删除目标的图像上,原始图像作为基本事实。

二、Related Work

目前,大多数对象移除方法采用“mask-and-inpaint”范式,其中mask区域被排除在输入之外,通常用placeholder中性占位符(例如黑色)填充。然后,该模型根据周围的内容对mask区域进行内绘。然而,我们发现这种方法存在两个主要问题。首先,这种策略经常在mask区域内产生意想不到的目标。由于缺乏对删除目标和其他内容的精确区分,这些方法严重依赖背景上下文,有时会导致无意中修复新对象,例如,如图2(a)所示,在道路上增加一辆新车而不是删除原来的一辆。其次,用户定义的mask经常超过目标对象,需要“mask-and-inpaint”方法来合成这些扩展区域。这会无意中修改附近的上下文,降低视觉连贯性。

 为了解决这些局限性,我们引入了一种新的对象移除范式,称为Mask-Region-Guidance。核心思想是,不应排除mask区域,而应将其用作去除过程中的关键指导。我们的方法很简单:与现有方法一样,我们保留原始图像作为输入,用掩码输入指示掩码区域,而不是用占位符替换掩码区域。如图2(b)所示,这种范式使模型能够准确识别目标对象,防止输出中的意外再生,并在最终结果中有效地保留目标对象的周围环境。

然而,我们的新范式不能直接用现有的对象移除数据构造方法来实现。通常,他们的训练数据是通过屏蔽图像的一部分来创建的,然后训练模型来预测被mask的内容。如果将这种方法应用于我们提出的mask区域指导范式,由于mask区域包含在输入中,该模型可以通过简单地从输入中复制mask内容来利用快捷方式。因此,由input、mask和remove result三元组组成的数据集对我们的范式至关重要。不幸的是,现有的相关数据集[23,36,45,48]要么包含数量有限的独特场景,要么依赖于修复模型来生成伪去除结果。

为了解决这个问题,我们引入了一种合成技术来创建专门用于对象删除的训练数据。我们的方法涉及将来自不同图像的对象实例粘贴到不同的背景图像上,形成输入图像,粘贴的实例掩模作为输入掩模,原始背景图像被设计为ground truth。使用这种方法,我们生成Syn4Removal,一个由真实背景图像、mask和带有粘贴对象的背景三元组组成的大规模数据集。Syn4Removal的设计提供了相反的场景,并支持在我们的新范式下进行有效的训练,鼓励模型在没有捷径的情况下准确学习对象移除

为了使Syn4Removal适用于训练对象移除模型,我们设计了一个pipeline来生成高质量的数据。首先,我们过滤掉低质量的实例和背景图像。然后,我们开发了一种计算图像上可行粘贴位置的方法,确保对象不会与粘贴区域中的实例重叠,这有助于防止模型重新生成不需要的对象。最后,使用混合算法将实例粘贴到背景图像上。由此产生的数据集由100万个图像三元组组成。

三、Method

现有方法:大多数现有方法遵循“mask-and-inpaint”范式,其中mask区域被排除在输入之外,模型试图根据未mask区域修复缺失的内容。

现有方法缺点:它们通常会在mask区域重新生成新对象或产生模糊和伪影。

基于所提出的掩模区域引导范式和Syn4Removal数据集,我们设计了一个基于文本到图像稳定扩散模型的物体移除框架。

Mask Enhancement.

如果模型只使用精确的对象掩码进行训练,那么训练和推理之间的掩码形状和大小将存在显著差距。具体来说,我们使用六种掩码类型来增强对象掩码:(1) Original mask;(2) Eroded mask;(3) Dilated mask;(4) Convex hull mask;(5) Ellipse mask;(6) Bbox & Bessel mask;

CLIP-Based Visual Guidance.

我们的SmartEraser是基于文本到图像的扩散模型设计的,文本提示在指导生成过程中起着重要作用。我们的目标是设计一个提示,指示模型在生成过程中要删除什么。具体来说,我们首先使用相应的增强掩模对图像中与移除目标对应的区域进行分割。然后将该分割区域馈送到预训练的CLIP[33]视觉编码器中,以提取其视觉特征(例如class token)。此功能与文本编码器输出空间不精确对齐。然后利用可训练的MLP网络将视觉特征映射到文本编码器的特征空间。然后将映射的embedding附加到提示“Remove the instance of ”的CLIP文本嵌入的标记上。在训练过程中,视觉编码器被冻结,MLP和文本编码器是可训练的。因此,基于CLIP的视觉引导制定如下:

 其中τθ(·)是文本编码器,νθ(·”)是视觉编码器,y表示输入文本提示“remove the instance of”。

Loss Function.

假设E(·)是VAE编码器,因此输入图像x的潜在特征及其GT xb分别为z̄=E(x)和z=E(xb),zt是z的噪声特征,在时间步长t处添加了噪声ε。因此,标准扩散过程后的总体训练损失公式如下:

4、Experiments 

为了进行公平的比较,我们遵循之前的实验设置[9,55],并在广泛使用的SD v1.5型号上微调SmartEraser。训练过程涉及微调扩散模型和MLP中的UNet和文本编码器组件,以将视觉特征映射到文本特征空间。SmartEraser在提出的Syn4Removal数据集上进行训练,batch size为32,使用AdamW、optimizer进行500k次迭代,所有可训练模块的学习率为2e-5。

Evaluation metrics.

为了定量评估对象移除模型的性能,我们考虑了三个关键方面:(1) 整体图像质量,Fre ́chet Inception Distance (FID) and CLIP Maximum Mean Discrepancy (CMMD);(2) consistency between the predicted region and the background context, evaluated by REMOVE [5] metric;(3) consistency between the pre- dicted region and corresponding region in the ground truth, assessed by LPIPS [52], SSIM [44], and PSNR;

 

 


http://www.ppmy.cn/server/165155.html

相关文章

1. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--前言

在我们的专栏《单体开发》中,我们实现了一个简单的记账软件的服务端,并且成功上线。随着用户数量的不断增长,问题逐渐开始显现。访问量逐渐增加,服务端的压力也随之加大。随着访问量的攀升,服务端的响应时间变得越来越…

【C语言篇】“三子棋”

一、游戏介绍 三子棋,英文名为 Tic - Tac - Toe,是一款简单而经典的棋类游戏。游戏在一个 33 的棋盘上进行,两名玩家轮流在棋盘的空位上放置自己的棋子(通常用 * 和 # 表示),率先在横、竖或斜方向上连成三个…

【华为OD-E卷 - 最大矩阵和 100分(python、java、c++、js、c)】

【华为OD-E卷 - 最大矩阵和 100分(python、java、c、js、c)】 题目 给定一个二维整数矩阵,要在这个矩阵中选出一个子矩阵,使得这个子矩阵内所有的数字和尽量大,我们把这个子矩阵称为和最大子矩阵,子矩阵的…

搜索引擎友好:设计快速收录的网站架构

本文来自:百万收录网 原文链接:https://www.baiwanshoulu.com/14.html 为了设计一个搜索引擎友好的网站架构,以实现快速收录,可以从以下几个方面入手: 一、清晰的目录结构与层级 合理划分内容:目录结构应…

计算机网络 IP 网络层 2 (重置版)

IP的简介: IP 地址是互联网协议地址(Internet Protocol Address)的简称,是分配给连接到互联网的设备的唯一标识符,用于在网络中定位和通信。 IP编制的历史阶段: 1,分类的IP地址: …

Brave132 编译指南 Windows 篇:配置 Git(四)

1. 引言 在 Brave 浏览器 132 版本的开发流程中,Git 作为核心的版本控制工具,发挥着至关重要的作用。作为业界主流的分布式版本控制系统,Git 为开发者提供了强大的源代码管理能力。借助 Git,您可以轻松追踪代码的每一次变更、管理…

解决国内服务器 npm install 卡住的问题

在使用国内云服务器时,经常会遇到 npm install 命令执行卡住的情况。本文将分享一个典型案例以及常见的解决方案。 问题描述 在执行以下命令时: mkdir test-npm cd test-npm npm init -y npm install lodash --verbose安装过程会卡在这个状态&#xf…

Vue模板语法与常用指令深度解析

Vue模板语法与常用指令深度解析 Vue模板语法与常用指令深度解析一、Vue模板语法基础1.1 插值语法1.2 JavaScript表达式 二、核心指令深度解析2.1 条件渲染:v-if 家族指令2.1.1 基础用法与原理2.1.2 v-if vs v-show 深度对比2.1.3 高级用法模式2.1.4 性能优化指南 2.…