VideoBooth: Diffusion-based Video Generation with Image Prompts

news/2024/12/2 14:24:34/

Videos synthesized by image prompts.

文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。

粗-细两阶段设计：1）粗阶段，利用CLIP图像编码器将图片视觉编码注入文本嵌入中，融合后的嵌入送入cross attention层；2）细阶段，将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑：

使用CLIP获取图像提示词和文本提示词的编码信息，然后将文本编码中目标物体的编码替换为图像视觉编码，将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的，但是为了对齐图像和文本编码，图像编码会经过MLP层。此外，为了适配融合后的编码，交叉注意力层中的K和V也被微调了。

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码，然后加噪送入U-Net，每个阶段的U-Net输出（包括最初的潜在编码）对应的K-V都会和原始的K-V进行拼接，初始帧的V被更新，并影响后续所有的Value。