摘要:生成式游戏引擎有望通过自主创建新内容并减轻手工工作量,从而彻底改变游戏开发领域。然而,现有的基于视频的游戏生成方法未能解决场景泛化的关键挑战,限制了它们仅适用于具有固定风格和场景的现有游戏。在本文中,我们提出了GameFactory框架,专注于探索游戏视频生成中的场景泛化问题。为了创建全新且多样化的游戏,我们利用了在大规模开放域视频数据上预训练的视频扩散模型。为了弥合开放域先验知识与小规模游戏数据集之间的领域差距,我们提出了一种多阶段训练策略,将游戏风格学习与动作控制解耦,既保持了开放域的泛化能力,又实现了动作的可控性。我们以《我的世界》作为数据源,发布了GF-Minecraft,这是一个高质量且动作标注多样的视频数据集,供研究使用。此外,我们还扩展了我们的框架,使其能够实现自回归的动作可控游戏视频生成,从而能够生成无限长度的交互式游戏视频。实验结果表明,GameFactory能够有效生成开放域、多样化且动作可控的游戏视频,这标志着AI驱动的游戏生成技术迈出了重要一步。我们的数据集和项目页面公开可访问,网址为:https://vvictoryuki.github.io/gamefactory/。Huggingface链接:Paper page ,论文链接:2501.08325
- 引言与研究背景:
- 生成式游戏引擎潜力:生成式游戏引擎具有通过自主创建新内容来减少游戏开发中手工工作量的潜力,有望彻底改变游戏开发领域。
- 现有方法局限性:尽管现有基于视频的游戏生成方法取得了一定进展,但它们未能解决场景泛化的关键挑战,因此仅适用于具有固定风格和场景的现有游戏。
- 研究目标:本文提出了GameFactory框架,旨在探索游戏视频生成中的场景泛化问题,通过利用预训练的视频扩散模型,实现全新且多样化的游戏创建。
- GameFactory框架概述:
- 框架核心思想:GameFactory框架建立在预训练的视频生成模型基础上,通过引入一个可插拔的动作控制模块,实现了对大规模未标记数据和小规模高质量Minecraft动作数据的有效利用。
- 动作控制模块:该模块通过独特的控制机制整合了Diffusion Transformer块,以处理鼠标和键盘输入。为解决动作信号与帧潜在表示之间的粒度不匹配问题,实现了组操作和滑动窗口机制。
- 多阶段训练策略:提出了一个四阶段训练策略,包括开放域预训练、游戏特定风格学习、动作控制训练,以及最终实现开放域动作控制生成,确保了动作控制能力的同时保持了开放域场景生成能力。
- 技术细节与实现方法:
- 视频扩散模型基础:采用基于Transformer的潜在视频扩散模型作为骨干,通过编码器将视频压缩为潜在表示,并利用噪声预测器进行视频生成。
- 动作控制模块集成:将动作控制模块集成到视频扩散模型的Transformer块中,通过不同的控制机制处理连续的鼠标移动和离散的键盘输入。对于鼠标移动,采用拼接操作;对于键盘输入,采用交叉注意力机制。
- 组操作和滑动窗口机制:由于时间压缩比的存在,动作数量与特征数量不匹配。通过组操作和滑动窗口机制解决这一问题,使模型能够处理延迟的动作效果,如跳跃。
- 多阶段训练策略实施:
- 阶段#0:在开放域数据上进行模型预训练,获得强大的生成先验。
- 阶段#1:使用LoRA对预训练模型进行微调,以适应特定游戏视频,同时保留大部分原始参数。
- 阶段#2:冻结预训练参数和LoRA,仅训练动作控制模块,实现风格独立的动作控制。
- 阶段#3:在开放域上进行推理,移除LoRA权重,仅保留动作控制模块参数,实现跨开放域场景的控制性游戏视频生成。
- GF-Minecraft数据集:
- 数据集收集:利用Minecraft作为数据收集平台,通过执行预定义的动作序列,收集了70小时的游戏视频作为GF-Minecraft数据集。
- 数据集特点:
- 无偏动作收集:将键盘和鼠标输入分解为原子动作,并确保其平衡分布,避免了人类玩家习惯引入的偏差。
- 多样化场景:捕获了不同场景、天气条件和一天中的不同时间段的视频,增强了数据集的多样性。
- 文本描述:使用预训练的多模态大型语言模型MiniCPM对视频片段进行文本标注,提供了场景特定的物理动态学习。
- 实验结果与分析:
- 动作控制能力验证:
- 消融研究:对连续鼠标移动信号和离散键盘控制信号的控制机制进行了消融研究,结果表明,对于离散控制信号,交叉注意力优于拼接;而对于连续鼠标移动信号,拼接更为有效。
- 动作控制展示:在Minecraft域内展示了动作控制模块的能力,模型成功学习了基本原子动作,并能够组合这些动作以实现更复杂的控制。
- 场景泛化能力:
- 新游戏创建:展示了在开放域场景中创建新游戏的能力,理论上,预训练模型的任何生成能力范围内的场景都可以作为新游戏的内容。
- 赛车游戏示例:探讨了将学到的动作空间泛化到不同游戏类型(如赛车游戏)的可能性,发现Minecraft中学到的偏航控制无缝转移到赛车游戏中的转向控制。
- 自回归生成机制:
- 机制描述:提出了自回归生成机制,允许基于先前输出生成多个帧,实现了高效的长视频生成。
- 实验结果:实验结果表明,该机制能够生成无限长度的动作可控游戏视频,满足了实际游戏应用中连续游戏流的需求。
- 动作控制能力验证:
- 生成式游戏引擎的潜力与挑战:
- 潜力:GameFactory不仅是一个创建新游戏的工具,更是一个具有广泛影响力的可泛化世界模型。它能够将从小规模标注数据集中学到的物理知识泛化到开放域场景中,为自主驾驶和具身AI等领域提供解决方案。
- 应用前景:
- 作为数据生产者:将知识从小规模标注数据集转移到开放域场景,生成多样化且接近真实世界复杂性的无限动作标注数据。
- 作为模拟器:提供一个环境来直接训练代理执行真实世界任务,通过启用控制和多样化的场景生成,包括难以在真实世界数据收集中捕获的极端情况,提高了策略模型的鲁棒性和泛化能力。
- 面临的挑战:生成式游戏引擎的研究仍面临许多挑战,包括设计多样化的关卡和游戏体验、玩家反馈系统、游戏内对象操作、长上下文记忆以及实时游戏生成等。
- 结论与未来展望:
- 研究成果总结:GameFactory框架在解决游戏视频生成中的场景泛化问题方面取得了显著进展,通过利用预训练的视频扩散模型和提出的多阶段训练策略,实现了开放域、多样化和动作可控的游戏视频生成。
- 未来研究方向:将继续努力推动生成式游戏引擎的发展,致力于实现一个功能齐全的生成式游戏引擎。同时,GameFactory的探索也可能为其他领域(如自主驾驶和具身AI)提供有价值的见解。
- 附录与补充材料:
- GF-Minecraft数据集详细信息:提供了数据集的基本信息、预处理步骤以及动作空间的详细说明。
- 补充实验结果:展示了消融研究的定性结果、多阶段训练策略对场景泛化能力的评估结果等,进一步验证了GameFactory框架的有效性和鲁棒性。
本文通过提出GameFactory框架,展示了生成式游戏引擎在场景泛化方面的巨大潜力。通过利用预训练的视频扩散模型和提出的多阶段训练策略,GameFactory不仅实现了在开放域场景中创建新游戏的能力,还通过自回归生成机制支持了无限长度的交互式游戏视频生成。实验结果充分证明了GameFactory框架的有效性和实用性,为未来的生成式游戏引擎研究奠定了坚实的基础。