跟李沐学AI:视频生成类论文精读(Movie Gen、HunyuanVideo)

ops/2025/2/4 4:59:58/

Movie Gen:A Cast of Media Foundation Models

简介

Movie Gen是Meta公司提出的一系列内容生成模型,包含了

3.2.1 预训练数据

Movie Gen采用大约 100M 的视频-文本对1B 的图片-文本对进行预训练。

图片-文本对的预训练流程与Meta提出的 Emu: Enhancing image generation models using photogenic needles in a haystack 流程相同。[2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a HaystacktAbstract page for arXiv paper 2309.15807: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystackhttps://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807

原始视频数据由4秒至两分钟长度的数据组成,视频内容涵盖人文、自然、动物等多个领域。数据经过预处理后得到一系列的clip-prompts pairs(视频片段-提示词对) 。

每个clip(视频片段)大约4-16秒长,视频内容由单镜头拍摄,且不包含复杂的动作。

视频数据预处理流程如下:

Visual Filtering 

1. 过滤掉分辨率小于720px的视频

2. 数据集中60%的视频为横屏视频,40%为竖屏视频

3. 删去文字特别多的视频

4. 从长视频中抽取出单场景的4-16s的片段

5. 保证视频美学品质

6. 保证视频没有边框

Motion Filtering

删去运动幅度较小的视频,通过Meta内部的静态视频检测模型移除所有没有运动的视频,随后选出具有“合理”运动幅度的视频。

Content Filtering

删除重复的视频片段、对不同类型的数据进行重新采样,保证内容的均匀性。

Captioning

对每个视频片段使用llama3-Video创建准确、具体的prompts。70%的数据使用8B模型,30%的数据使用70B。

为了保证模型能够生成电影质感的运镜,训练了一个运镜分类器来对16类运镜进行分类,如变焦、平移。如果运镜分类结果置信度很高,则将这个运镜分类结果添加至提示词中。

Multi-stage data curation

Movie Gen将上述数据预处理流程分了三个阶段,每个阶段对于数据的筛选逐渐严格,使得模型可以由易到难逐步进行学习。

3.2.2 预训练

1. 首先使用text-to-image的数据对模型进行warm up热身训练,随后使用text-to-image和text-tovideo的数据进行联合训练。

2. 视频数据分辨率首先由256px提升至768px

3. 不断用更好的数据集和优化后的超参数对模型进行训练。

训练阶段:256 px T2I
  1. TP(张量并行度): 1
  • 指训练过程中使用的张量并行度。在这个阶段,没有应用张量并行。
  1. CP(检查点并行度): 1
  • 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
  1. bs/GPU(每个GPU的批量大小): 6
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理6个样本。
  1. GPUs(GPU数量): 1536
  • 用于训练的GPU总数。这个阶段使用了1536个GPU。
  1. global bs(全局批量大小): 9216
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 6 * 1536 = 9216。
  1. learning rate(学习率): 1e-4
  • 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.0001。
  1. iters(迭代次数): 210k
  • 训练过程中执行的总迭代次数。这个阶段运行210,000次迭代。
  1. seen samples(已见样本数): 1.94B
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约19.4亿个样本。
训练阶段:256 px T2I/V
  1. TP(张量并行度): 4
  • 指训练过程中使用的张量并行度。张量并行度设置为4。
  1. CP(检查点并行度): 1
  • 可能指的是检查点并行度。在这个阶段,没有应用检查点并行。
  1. bs/GPU(每个GPU的批量大小): 2
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理2个样本。
  1. #GPUs(GPU数量): 3072
  • 用于训练的GPU总数。这个阶段使用了3072个GPU。
  1. global bs(全局批量大小): 1536
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs = 2 * 3072 = 1536。
  1. learning rate(学习率): 6e-5
  • 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.00006。
  1. #iters(迭代次数): 123k
  • 训练过程中执行的总迭代次数。这个阶段运行123,000次迭代。
  1. #seen samples(已见样本数): 173.6M
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约1.736亿个样本。
训练阶段:768 px T2I/V
  1. TP(张量并行度): 4
  • 指训练过程中使用的张量并行度。张量并行度设置为4。
  1. CP(检查点并行度): 1 或 2
  • 可能指的是检查点并行度。在这个阶段,检查点并行度根据配置为1或2。
  1. bs/GPU(每个GPU的批量大小): 1
  • 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理1个样本。
  1. #GPUs(GPU数量): 6144 或 4096
  • 用于训练的GPU总数。这个阶段使用了6144或4096个GPU,取决于配置。
  1. global bs(全局批量大小): 1536、768 或 512
  • 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs。根据配置,它可以是1536、768或512。
  1. learning rate(学习率): 6e-5、3e-5、2e-5 或 1e-5
  • 确定每次迭代时向损失函数最小值移动的步长。学习率在0.00006、0.00003、0.00002和0.00001之间变化。
  1. #iters(迭代次数): 19.6k、11k、15.9k 或 28k
  • 训练过程中执行的总迭代次数。这个阶段运行19,600、11,000、15,900或28,000次迭代,取决于配置。
  1. #seen samples(已见样本数): 30.1M、16.9M、12.2M 或 14.6M
  • 表示模型在训练过程中暴露的总样本数。模型看到了大约3.01亿、1.69亿、1.22亿或1.46亿个样本,取决于配置。

Note:联合训练时,文本-图片对数据和文本视频对的数据保持在1:10左右的比例。

3.3 Fine Tuning 

为了保证生成结果的质量,finetuning的数据集规模可以较小,但是数据质量一定要有保障。因此finetuning的数据均由人为标注。

高质量的定义:良好的运镜、真实性、美学性、内容丰富、文本描述详细。

为了筛选高质量的数据集,Movie Gen使用连续的四个阶段对数据进行筛选:

1. 创建一个候选子集,对每个质量标准进行严格的限制,使用目标检测模型移除了只有小物体的视频。

2. 与Content Filtering一样,对第一阶段筛选后的视频进行重新采样,保证各个类别的视频均匀分布。

3. 人为找出具有电影质感的视频。

4. 人为对模型生成的提示词进行润色修改,同时加入详细的原数据:运镜、人物表情、物体和背景信息、具体的运动描述和光线信息。

模型架构

与预训练阶段保持一致

初始化

使用预训练后的checkpoint文件

节点数

64

GPU数量

512 H100 GPUs (每个节点 8 个GPUs).

Batch Size

相对较小(没有具体说明)

动态学习率

余弦学习率调度器 (Loshchilov and Hutter, 2017).

视频帧率

16秒长度的视频:16FPS;0.6–16秒长的视频:24FPS.

生成视频长度

支持生成10-16秒的视频

5. Model Averaging:不同数据子集、不同超参数训练出来的模型各有所长,为了利用不同checkpoint模型的优势、提升模型泛化性Movie Gen对SFT阶段不同的模型参数进行了平均操作,类似于Llama 3。

HunyuanVideo: A Systematic Framework For Large Video Generative Models

3. Data Pre-porcessing

与Movie Gen一致,Hunyuan Viedoe使用了图像-视频联合训练的策略,将视频分为五类、图像分为两类,以满足不同训练需求。原始数据涵盖人物、动物、风景等多个领域,筛选时设定了最低时长、画质、构图、色彩等严格标准,优先选用高质量数据,显著提升了模型性能。

3.1 Data Filtering

1. 使用PySceneDetect把原始视频分割为单镜头拍摄的视频片段。

2. 使用OpenCV中的拉普拉斯算子找出视频中最“干净”的一帧作为视频开头。

3. 使用内部的VideoCLIP模型计算每个视频的embeddings,使用embeddings计算余弦距离,删去重复数据。使用K-Means算法对数据进行重新采样以保持各种类型数据的多样性。

4. 使用Dover模型筛选更为美观的视频片段。单独训练了一个用于筛选清晰度的视频。

5. 删去了完全禁止和动作幅度较小的视频。(estimated optical flow)

6. 使用PySceneDetect和Transnet v2获得场景边界信息

7. 使用OCR模型移除文字过多的视频片段

8. 使用目标检测模型移除敏感信息

SFT阶段,约有100万条数据,同样采用人为标注的数据进行微调。

3.2 Data Annotation 

结构化说明文本:HunYuanVideo使用JSON来对图片信息进行说明。JSON数据包括:Short Description描述场景的主要内容、Dense Description详细、完整的描述、Background描述物体所在的背景、Style描述视频的风格、Shot Type描述视频的具体视角、Lighting描述视频的光线情况、Atmosphere描述视频氛围如Cozy、Tense等。

此外,HunYuanVideo扩展了JSON结构,以包含额外的元数据派生元素,包括源标签、质量标签以及来自图像和视频元信息的其他相关标签。

为了防止过拟合,HunYuanVideo通过精心设计的Dropout及排列和组合策略,根据这些多维度的描述信息来合成长度和模式各异的字幕,旨在提高生成模型的泛化能力。

HunYuanVideo训练了一个运镜分类器来预测14个不同的运镜类型,包括变焦放大、变焦缩小、向上平移、向下平移等。高置信度的分类结果将被添加至数据的JSON说明文本中。

通过上述两项工作的数据预处理过程,可以看出数据质量对模型的重要性。


http://www.ppmy.cn/ops/155479.html

相关文章

Git 常用命令汇总

# 推荐一个十分好用的git插件---->GitLens 其实很多命令操作完全界面化了&#xff0c;鼠标点点就可以实现但是命令是必要的&#xff0c;用多了你就知道了 Git 常用命令汇总 1. Git 基础操作 命令作用git init初始化本地仓库git clone <repo-url>克隆远程仓库到本地g…

使用 PyTorch 实现逻辑回归并评估模型性能

1. 逻辑回归简介 逻辑回归是一种用于解决二分类问题的算法。它通过一个逻辑函数&#xff08;Sigmoid 函数&#xff09;将线性回归的输出映射到 [0, 1] 区间内&#xff0c;从而将问题转化为概率预测问题。如果预测概率大于 0.5&#xff0c;则将样本分类为正类&#xff1b;否则分…

Flutter 与 React 前端框架对比:深入分析与实战示例

Flutter 与 React 前端框架对比&#xff1a;深入分析与实战示例 在现代前端开发中&#xff0c;Flutter 和 React 是两个非常流行的框架。Flutter 是 Google 推出的跨平台开发框架&#xff0c;支持从一个代码库生成 iOS、Android、Web 和桌面应用&#xff1b;React 则是 Facebo…

DeepSeek大模型技术解析:从架构到应用的全面探索

一、引言 在人工智能领域&#xff0c;大模型的发展日新月异&#xff0c;其中DeepSeek大模型凭借其卓越的性能和广泛的应用场景&#xff0c;迅速成为业界的焦点。本文旨在深入剖析DeepSeek大模型的技术细节&#xff0c;从架构到应用进行全面探索&#xff0c;以期为读者提供一个…

低代码系统-产品架构案例介绍、炎黄盈动-易鲸云(十二)

易鲸云作为炎黄盈动新推出的产品&#xff0c;在定位上为低零代码产品。 开发层 表单引擎 表单设计器&#xff0c;包括设计和渲染 流程引擎 流程设计&#xff0c;包括设计和渲染&#xff0c;需要说明的是&#xff1a;采用国际标准BPMN2.0&#xff0c;可以全球通用 视图引擎 视图…

openmv的端口被拆分为两个 导致电脑无法访问openmv文件系统解决办法 openmv USB功能改动 openmv驱动被更改如何修复

我之前误打误撞遇到一次&#xff0c;直接把openmv的全部端口删除卸载然后重新插上就会自动重新装上一个openmv端口修复成功&#xff0c;大家可以先试试不行再用下面的方法 全部卸载再重新插拔openmv 要解决OpenMV IDE中出现的两个端口问题&#xff0c;可以尝试以下步骤&#x…

【2025年最新版】Java JDK安装、环境配置教程 (图文非常详细)

文章目录 【2025年最新版】Java JDK安装、环境配置教程 &#xff08;图文非常详细&#xff09;1. JDK介绍2. 下载 JDK3. 安装 JDK4. 配置环境变量5. 验证安装6. 创建并测试简单的 Java 程序6.1 创建 Java 程序&#xff1a;6.2 编译和运行程序&#xff1a;6.3 在显示或更改文件的…

Java实现.env文件读取敏感数据

文章目录 1.common-env-starter模块1.目录结构2.DotenvEnvironmentPostProcessor.java 在${xxx}解析之前执行&#xff0c;提前读取配置3.EnvProperties.java 这里的path只是为了代码提示4.EnvAutoConfiguration.java Env模块自动配置类5.spring.factories 自动配置和注册Enviro…