FramePack 是一项由 GitHub 和斯坦福大学合作推出的技术,旨在降低 AI 视频生成的硬件门槛。通过固定长度的时域上下文优化视频扩散模型,用户仅需 6GB 显存即可生成高达 60 秒的高质量视频。这一创新显著提高了处理效率,使得在较低硬件配置下生成更长、更高质量的 AI 视频成为可能。 "Image 5" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/ca14499d-d781-4f62-9faf-dcef79fab776.jpg) FramePack 的核心优势在于利用多阶段优化技术,有效降低了本地运行 AI 视频生成任务对硬件的要求。该技术的图形用户界面(GUI)内部运行的是一个定制的模型,研究论文指出,现有的预训练模型也可以通过 FramePack 技术进行微调以适配该架构。 传统的视频扩散模型在生成视频时,通常需要处理先前生成的所有带噪帧数据来预测下一个噪声更少的帧。FramePack 通过根据帧的重要性对其进行压缩,汇集到一个固定大小的上下文长度内,从而极大地降低了 GPU 的显存开销。 此外,FramePack 还结合了缓解“漂移”现象的技术,支持生成更长的视频内容而不显著牺牲保真度。当前,FramePack 明确要求使用支持 FP16 和 BF16 数据格式的英伟达 RTX 30、40 或 50 系列 GPU,Linux 操作系统已确认在支持列表之中。 以 RTX 4090 为例,在启用 teacache 优化后,生成速度可达约每秒 0.6 帧。FramePack 的出现为普通消费者进行 AI 视频创作铺平了道路,提供了一种替代昂贵第三方云服务的可行方案,尤其适合制作 GIF 动图和表情包等娱乐内容。
阅读量:35
点赞量:3
收藏量:0