腾讯混元视频生成工具 HunyuanCustom 宣布开源-灵析社区

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具Hunyuan Custom，该工具基于混元视频生成大模型（Hunyuan Video）打造，能融合文本、图像、音频、视频等多模态输入生视频的能力，具备高度的控制力与生成质量。Hunyuan Custom能够实现单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力，生成的视频与用户输入的参考主体能保持高度一致。用户可以通过上传图片和提供文本描述来生成相应的视频内容，支持从简单的图片描述生成视频到更加复杂的多主体视频生成。此外，Hunyuan Custom还支持音频和视频驱动模式，使得视频生成更具创意性与互动性。 Hunyuan Custom的单主体生成能力已开源并在混元官网上线，用户可以通过“模型广场-图生视频-参考生视频”体验该功能，其他更多功能将于5月内陆续开源。该工具的能力不仅限于文本与图像的结合，还能处理音频驱动的生成模式，通过音频驱动模式，用户上传人物图像并配上音频，可以让人物在任意场景中说话、唱歌等，适用于数字人直播、虚拟客服和教育演示等多种场景。 Hunyuan Custom具备的能力可以扩展到视频驱动模式，在该模式下，用户能够将图片中的人物或物体自然地替换或插入到任意视频片段中，进行创意植入或场景扩展，极大丰富了视频创作的可能性。