AIGC 014-ConsisID通过频率解耦将角色信息注入到文生视频模型
文章目录
- 0 论文工作
- 1 论文方法
- 2 实验结果
0 论文工作
身份保持的文本到视频生成是视频生成领域一个极具挑战性的任务,其目标是创建与给定文本描述相符且具有一致身份的视频。作者提出了一种名为 ConsisID 的新型生成模型来解决这一难题。核心在于通过对不同频率域的信号进行分解,来控制预训练扩散变换器。论文发现,低频特征主要负责全局特征,例如身份,而高**频特征则影响局部细节,例如表情。**ConsisiD 通过一个基于控制信号的交叉频率融合模块,从参考图像中提取低频全局身份特征和高频局部面部特征,并将它们融入到不同频率域的扩散过程中。此外,论文还引入了一致性学习策略和动态掩蔽人脸损失,以进一步加强身份一致性和视频质量。
paper
github
1 论文方法
这篇论文的核心思想是利用频率分解来控制预训练的扩散变换器,从而实现身份保持的文本到视频生成。其主要创新点如下:
基于频率分解的控制信号: 论文发现不同频率的特征在身份保持方面扮演不同角色。低频特征主导全局信息(如身份),而高频特征则决定局部细节(如表情)。ConsiosiD 利用这一发现,将参考图像的特征分解成低频和高频成分,分别用于控制扩散过程的不同阶段,从而实现对身份和细节的精准控制。
交叉频率融合模块 (Cross-Frequency Fusion Module): 该模块从参考图像中提取低频全局身份特征和高频局部面部特征,并将其融入不同频率域的扩散过程中。这使得模型能够有效地结合身份信息和文本描述,生成更符合要求的视频。
一致性学习策略 (Consistent Training Strategy): 为了增强生成视频的身份一致性,论文提出了一种新的训练策略,优先关注低频全局特征,并逐步加入高频细节,从而避免模型过度关注局部细节而丢失全局身份信息。
动态掩蔽人脸损失 (Dynamic Mask Face Loss): 为了进一步提升视频质量,特别是面部区域的清晰度和真实感,论文引入了一种动态掩蔽人脸损失函数,该函数能够根据人脸区域的变化动态调整损失权重。
基于预训练扩散变换器的框架: ConsisiD 建立在预训练的扩散变换器之上,这使得模型能够受益于大规模数据训练带来的强大生成能力。