什么是MultiTalk

AI解读 3个月前硕雀

45 0 0

MultiTalk 是一个由中山大学深圳校区、美团和中国香港科技大学联合开发的音频驱动多人对话视频生成框架。该框架旨在解决多模态交互视频生成中的核心问题，如音画同步、人物动作自然流畅、场景定位准确等。MultiTalk 以音频流为输入，驱动视频中人物的口型、表情和动作，生成逼真对话视频。其核心技术包括 Label Rotary Position Embedding（L-RoPE）方法，有效解决多声道音频与人物绑定问题，结合部分参数训练和多任务训练策略，提升人物动作自然度和智能适应性。

MultiTalk 支持多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。该框架支持单人和多人视频生成、交互式角色控制、卡通角色和唱歌视频生成，具有分辨率灵活、可生成长达15秒视频等特点。MultiTalk 还支持多语言支持、指令跟随和多语言生成，适用于影视娱乐、教育培训、广告营销、社交媒体和智能服务等领域。

MultiTalk 的核心技术包括 Diffusion-in-Transformer（DiT）视频扩散模型和 3D VAE，通过音频交叉注意力机制和自适应人物定位技术，实现音频与视频内容的精准匹配。MultiTalk 在多个数据集上表现优异，展示了强大的视频生成能力，适用于动画、歌唱、指令遵循等多种视频生成场景。

MultiTalk 是一个开源项目，已开源在 GitHub 上，为开发者提供学习和使用机会，助力 AI 视频生成技术普及和应用

什么是MultiTalk

相关链接

什么是COLLADA格式文件

什么是无掩码定位（Mask-Free Localization）