VidSketch:具有扩散控制的手绘草图驱动视频生成

devtools/2025/2/28 13:16:40/

浙大提出的VidSketch是第一个能够仅通过任意数量的手绘草图和简单的文本提示来生成高质量视频动画的应用程序。该方法训练是在单个 RTX4090 GPU 上进行的,针对每个动作类别使用一个小型、高质量的数据集。VidSketch方法使所有用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

上图为VidSketch生成的视频动画。该方法使用手绘草图序列(相应的草图放置在各个帧的左上角,从上到下的示例由 1、2、4 和 6 个草图引导)和简单的文本提示生成视频动画。这使得创建高质量、时空一致的视频动画成为可能,打破了艺术行业的障碍。VidSketch方法使所有技能水平的用户都能使用简洁的文本提示和直观的手绘草图轻松创建令人惊叹的高质量视频动画。

相关链接

  • 论文:http://arxiv.org/abs/2502.01101v1

  • 主页:https://csfufu.github.io/vid_sketch

  • 代码:https://github.com/CSfufu/VidSketch

论文介绍

随着生成式人工智能的进步,先前研究已经实现了从手绘草图生成唯美图像的任务,满足了大众对于绘画的需求。但这些方法局限于静态图像,缺乏对手绘草图生成视频动画的控制能力。

针对这一问题,论文提出的VidSketch是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法,弥合了普通用户和专业艺术家之间的鸿沟。

具体而言,该方法引入了一种基于级别的草图控制策略,在生成过程中自动调整草图的引导强度,以适应具有不同绘画水平的用户。此外,还设计了时间空间注意机制来增强生成的视频动画的时空一致性,显著提高跨帧连贯性。

不同类别的手绘草图

不同风格的 VidSketch

它是如何工作的?

手绘草图驱动的视频生成

VidSketch 的管道。在训练期间使用按类型分类的高质量小规模视频数据集来训练增强型 SparseCausal-Attention (SC-Attention) 和时间注意模块,从而提高视频动画的时空一致性。在推理期间,用户只需输入提示和草图序列即可生成量身定制的高质量动画。具体来说,第一帧是使用 T2I-Adapter 生成的,而整个草图序列由 Inflated T2I-Adapter 处理以提取信息,该信息被注入 VDM 的上采样层以指导视频生成。

训练方法遵循传统的 VDM 框架。首先在互联网上进行了广泛的搜索,为每个动作类别收集了 8-12 个高质量的训练视频。随后为每个动作类别分别训练了 SparseCausal-Attention 和 Temp-Attention 模块。这种策略有效地缓解了高质量视频数据有限的挑战,增强了生成视频的时空一致性和质量。

抽象级草图控制策略

考虑到用户绘画水平的差异性,我们对素描序列的连续性、连通性、纹理细节等进行了细致的量化分析,综合评估素描序列的抽象度,从而在视频生成过程中动态调整控制强度。抽象级素描控制策略的具体实现细节如下图所示。

我们对草图的连通性、连续性和纹理细节进行量化分析,自动评估手绘草图序列的抽象程度。不同抽象程度的草图对应不同的生成控制强度,确保VidSketch能够适应具有绘画技能的用户,从而增强该方法的泛化能力。

增强的SparseCausal-Attention机制

视频动画生成和图像生成任务的主要区别在于需要在视频帧之间保持时空一致性。为了解决视频动画生成的固有挑战,我们提出了一种增强型稀疏因果注意机制。在此机制中,对于视频序列中的每个帧 i,从初始帧和前一帧 (i-1) 中提取键/值 (K/V) 表示。然后使用当前帧 i 的查询 Q 表示来计算注意机制。

该机制在相同条件下有效地保持了帧间的一致性,大大提高了生成的视频动画的质量,更好地满足了高质量视频动画制作的需求。

更多结果


http://www.ppmy.cn/devtools/163354.html

相关文章

网络安全防御模型

目录 6.1 网络防御概述 一、网络防御的意义 二、被动防御技术和主动防御技术 三、网络安全 纵深防御体系 四、主要防御技术 6.2 防火墙基础 一、防火墙的基本概念 二、防火墙的位置 1.防火墙的物理位置 2.防火墙的逻辑位置 3. 防火墙的不足 三、防火墙技术类型 四…

2025年网校系统源码开发趋势:技术革新的教育培训APP搭建实战

2025年,随着AI、大数据、云计算等技术的深度融合,网校教育系统的源码开发也迎来了新的发展趋势。本文将深入探讨这些趋势,并结合教育培训APP的开发实战,展示如何应对未来的技术挑战。 一、2025年网校教育系统源码的技术趋势 AI驱…

如何正确理解mAP、精度、召回率等概念

mAP(Mean Average Precision)即平均精度均值,是目标检测任务中广泛使用的一个重要评估指标,用于衡量模型在检测不同类别目标时的整体性能,下面为你详细介绍: 精度(Precision)和召回…

vue项目本地开发完成后部署到服务器后报404是什么原因

如何部署 前后端分离开发模式下,前后端是独立布署的,前端只需要将最后的构建物上传至目标服务器的web容器指定的静态目录下即可 我们知道vue项目在构建后,是生成一系列的静态文件。 常规布署我们只需要将这个目录上传至目标服务器即可。 /…

(八)Java-Collection

一、Collection接口 1.特点 Collection实现子类可以存放多个元素,每个元素可以是Object; 有些Collection的实现类,可以存放重复的元素,有些不可以; 有些Collection的实现类,有些是有序的(Li…

【单片机】MSP430MSP432入门

文章目录 0 前言1 开发方式选择2 CCS和开发相关软件3 Keil开发MSP4324 IAR for 430开发MSP4305 总结 0 前言 最近因为想学DSP,所以把之前卸载的CCS给装回来了,手头也还有之前电赛剩下的MSP430和MSP432的板子,由于年代久远,想着花点…

Ubuntu中dpkg命令和apt命令的关系与区别

在 Ubuntu 中,dpkg 和 apt 是软件包管理的核心工具,但二者的角色和功能有显著区别: ​一、功能定位 ​特性​​**dpkg**​​**apt**​​层级​底层工具(直接操作 .deb 文件)高层工具(管理软件仓库和依赖关…

VSCode轻松调试运行C#控制台程序

1.背景 我一直都是用VS来开发C#项目的,用的比较顺手,也习惯了。看其他技术文章有介绍VS Code更轻量,更方便。所以我专门花时间来使用VS Code,看看它是如何调试代码、如何运行C#控制台。这篇文章是一个记录的过程。 2.操作 2.1 V…