AIGC 014-ConsisID通过频率解耦将角色信息注入到文生视频模型

server/2024/12/16 16:55:54/

AIGC 014-ConsisID通过频率解耦将角色信息注入到文生视频模型


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 实验结果

0 论文工作

身份保持的文本到视频生成是视频生成领域一个极具挑战性的任务,其目标是创建与给定文本描述相符且具有一致身份的视频。作者提出了一种名为 ConsisID 的新型生成模型来解决这一难题。核心在于通过对不同频率域的信号进行分解,来控制预训练扩散变换器。论文发现,低频特征主要负责全局特征,例如身份,而高**频特征则影响局部细节,例如表情。**ConsisiD 通过一个基于控制信号的交叉频率融合模块,从参考图像中提取低频全局身份特征和高频局部面部特征,并将它们融入到不同频率域的扩散过程中。此外,论文还引入了一致性学习策略和动态掩蔽人脸损失,以进一步加强身份一致性和视频质量。

paper
github

1 论文方法

在这里插入图片描述
这篇论文的核心思想是利用频率分解来控制预训练的扩散变换器,从而实现身份保持的文本到视频生成。其主要创新点如下:
基于频率分解的控制信号: 论文发现不同频率的特征在身份保持方面扮演不同角色。低频特征主导全局信息(如身份),而高频特征则决定局部细节(如表情)。ConsiosiD 利用这一发现,将参考图像的特征分解成低频和高频成分,分别用于控制扩散过程的不同阶段,从而实现对身份和细节的精准控制。
交叉频率融合模块 (Cross-Frequency Fusion Module): 该模块从参考图像中提取低频全局身份特征和高频局部面部特征,并将其融入不同频率域的扩散过程中。这使得模型能够有效地结合身份信息和文本描述,生成更符合要求的视频。
一致性学习策略 (Consistent Training Strategy): 为了增强生成视频的身份一致性,论文提出了一种新的训练策略,优先关注低频全局特征,并逐步加入高频细节,从而避免模型过度关注局部细节而丢失全局身份信息。
动态掩蔽人脸损失 (Dynamic Mask Face Loss): 为了进一步提升视频质量,特别是面部区域的清晰度和真实感,论文引入了一种动态掩蔽人脸损失函数,该函数能够根据人脸区域的变化动态调整损失权重。
基于预训练扩散变换器的框架: ConsisiD 建立在预训练的扩散变换器之上,这使得模型能够受益于大规模数据训练带来的强大生成能力。

2 实验结果

在这里插入图片描述


http://www.ppmy.cn/server/150680.html

相关文章

PyQt事件机制练习

一、思维导图 二、代码 import sysfrom PyQt6.QtTextToSpeech import QTextToSpeech from PyQt6.QtWidgets import QApplication, QWidget, QLabel, QPushButton, QLineEdit from PyQt6 import uic from PyQt6.QtCore import Qt, QTimerEvent, QTimeclass MyWidget(QWidget):d…

Docker的镜像

目录 1. 镜像是什么??2. 镜像命令详解2.1 镜像命令清单2.2 docker rmi命令2.3 docker save命令2.4 docker load命令2.5 docker history命令2.6 docker import命令2.7 docker image prune命令2.8 docker build命令 3. 镜像的操作4. 离线迁移镜像5. 镜像存…

【嵌入式】嵌入式面试题 36 问

1. volatile 是否可以修饰 const 是的,volatile 可以修饰 const。const 表示变量的值不能被修改,而 volatile 表示变量的值可能在程序之外被修改(例如,由硬件修改)。 将 volatile 用于 const 变量意味着该变量的值虽然…

大模型呼出机器人能够解决哪些问题?

大模型呼出机器人能够解决哪些问题? 原作者:开源呼叫中心FreeIPCC,其Github:https://github.com/lihaiya/freeipcc 大模型呼出机器人作为现代科技在客户服务领域的创新应用,能够解决多个方面的问题,以下是…

6-10 异常除零捕获(2)

然后是 在 汇编中 再调用C函数 进行实现。 这里面的 C语言又调用了 另一个函数, 继续实现这个函数。 然后就是 编译 测试了。 测试 是可以的。 接下来就是 中断中关于 寄存器的保护。 像这种 出错的异常 是不需要保存寄存器的。 但是 像一些 用于通知的异常 就…

【故障诊断】基于CNN-SVM卷积神经网络结合支持向量机的分类故障诊断

本文探讨了卷积神经网络(CNN)和支持向量机(SVM)相结合模型在故障分类识别中的应用,利用了CNN的特征提取优势和SVM的出色分类能力(用SVM作为CNN的最终分类器)。通过案例数据集展示了CNN-SVM组合模…

18.Java Lambda 表达式(Lambda 表达式练习与原理分析、@FunctionalInterface 注解)

一、问题引入 1、问题案例 开启一个新的线程,指定线程要执行的任务 new Thread(new Runnable() {public void run() {System.out.println("Hello World");} }).start();2、问题分析 Thread 类需要一个 Runnable 接口作为参数,其中抽象方法 …

力扣-图论-9【算法学习day.59】

前言 ###我做这类文章一个重要的目的还是给正在学习的大家提供方向和记录学习过程(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非…