原理代码解读:基于DiT结构视频生成模型的ControlNet

news/2024/10/21 19:10:38/

Diffusion Models视频生成-博客汇总

前言:相比于基于UNet结构的视频生成模型,DiT结构的模型最大的劣势在于生态不够完善,配套的ControlNet、IP-Adapter等开源权重不多,导致难以落地。最近DiT-based 5B的ControlNet开源了,相比于传统的ControlNet有不少改进点,这篇博客将从原理和代码上重点解读一下。

目录

原理讲解

代码讲解

DataLoader

第一步:VAE压缩Pose编码

第二步:直接concat

第三步:转换成embedding

效果

总结


原理讲解

基于开源的CogVideox FUN 5B模型,使用Pose控制信号替代了原本的mask信号,将控制信号使用VAE编码后作为Guidance与latent一起进入patch流程。

在0.48m数据中进行了筛选,选择出大约20000包含人像的视频与图片进行pose提取,作为condition控制信号进行训练。

在进行训练时,我们根据不同Toke


http://www.ppmy.cn/news/1540873.html

相关文章

RabbitMQ 作为消息中间件,实现了支付消息的异步发送和接收, 同步和异步相比 响应速度具体比较

在支付场景中,使用 RabbitMQ 实现消息的异步发送和接收与同步处理相比,响应速度和整体系统性能会有显著的不同。以下是同步和异步方式在响应速度上的详细比较: 1. 同步处理方式 在同步模式下,支付消息的处理流程通常是&#xf…

如何将 ECharts 图表插入 HTML Canvas

在 Web 开发中,数据可视化是一个常见且重要的需求。ECharts 是一个强大的图表库,而 HTML5 Canvas 则提供了灵活的绘图能力。今天,我们将探讨如何将这两者结合起来,实现将 ECharts 生成的图表插入到 HTML Canvas 中的特定位置。 为…

docker 文件目录迁移

文章参考 du -hs /var/lib/docker/ 命令查看磁盘使用情况。 du -hs /var/lib/docker/docker system df命令,类似于Linux上的df命令,用于查看Docker的磁盘使用情况: rootnn0:~$ docker system df TYPE TOTAL ACTIVE SIZE RECLAIMABLE Images 7 2 122.2…

【微信小程序_11_全局配置】

摘要:本文介绍了微信小程序全局配置文件 app.json 中的常用配置项,重点阐述了 window 节点的各项配置,包括导航栏标题文字、背景色、标题颜色,窗口背景色、下拉刷新样式以及上拉触底距离等。通过这些配置可实现小程序窗口外观的个性化设置,提升用户体验。 微信小程序_11_全…

智能听诊器:宠物健康管理的得力助手

随着科技的进步,智能听诊器已经成为宠物健康管理领域的一项革命性发明。它不仅能够实时监测宠物的心跳、呼吸频率和节律等关键生理指标,而且通过高精度的传感器捕捉到宠物心跳的微小变化和呼吸频率的微妙差异,为宠物主人提供了实时的健康数据…

oracle numtodsinterval

Oracle的numtodsinterval函数用于将数字转换为间隔值(INTERVAL)。这个函数接受一个数字和一个间隔种类作为参数,并返回一个间隔值。 种类参数可以是: DAY HOUR MINUTE SECOND 下面是一些使用numtodsinterval函数的例子&…

vue中如何自定义Form表单rules校验方法(手机号/座机号、身份证号/社会统一信代码校验,支持多个,以英文逗号分隔)

需求描述: 1.相对方联系方式需要支持手机号、座机号填入保存,可能会填写多个都需要校验是否能通过 2.相对方统一社会信用代码/身份证号码填入,可以是身份证号码也可以是社会统一信用代码,都得支持校验通过,并且容许填入…

ComfyUI绘画|文生图基础工作流搭建

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助! 设置中文界面 方式一 这份完整版的AI绘画全套学习资料已经上传CSD…