AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题-灵析社区

AI资讯

香港大学与快手科技合作,推出了GameFactory框架,旨在解决游戏视频生成中的场景泛化问题。通过在开放域视频数据上预训练的视频扩散模型,GameFactory能够创造多样化的游戏场景。 项目背景 视频扩散模型在游戏引擎开发中展现出巨大潜力。它们能根据用户输入生成游戏场景,但场景泛化问题依旧是一个关键挑战。收集大量带有标注的动作视频虽能解决此问题,但由于成本高昂且无法适用于开放域场景,这种方法面临实际困难。 现有的模型如Direct-a-Video和MotionCtrl等已取得进展,但仍然存在对特定游戏数据集的过度依赖,限制了场景的泛化能力。 项目介绍 GameFactory框架采用了预训练的视频扩散模型,这使得它能够从不同的视频数据中生成多样化的游戏场景。为了克服开放域先验知识和有限游戏数据集之间的差距,GameFactory采用了三阶段训练策略: 1. 第一阶段:使用LoRA技术微调预训练模型,保持大部分原始参数。 2. 第二阶段:冻结预训练参数并专注于训练动作控制模块。 3. 第三阶段:移除LoRA权重,使系统能够在不同的游戏场景中生成控制游戏视频。 GameFactory还通过评估不同的控制机制,发现交叉注意力机制在处理离散控制信号(如键盘输入)方面具有优势,而拼接方法适用于连续控制信号(如鼠标移动)。该系统支持生成无限长度的互动游戏视频。 "Image 13" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/fcc4f65b-1cf4-4428-8b2f-41fbbf9a8151.jpg) "Image 14" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/f510724f-faed-4cfd-afcf-1e4ea01e50a1.png) "Image 15" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/d06660b8-7e6b-4332-a286-027f741fb5d5.png) "Image 16" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/0c138657-ba66-4a1b-a29e-b1cdfd504b25.png) "Image 17" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/05cb4f09-1dbf-4ce6-877d-a0fd50b344b4.png) 研究人员还发布了一个名为GF-Minecraft的高质量动作标注视频数据集,用于训练和评估GameFactory框架。

阅读量:914

点赞量:40

收藏量:0