通义实验室开源Fun-CineForge，首克多人对话难题

AI资讯 1小时前硕雀

1 0 0

Fun-CineForge是阿里巴巴通义实验室于2026年3月16日发布并开源的全球首个支持影视级多场景配音的多模态大模型。它旨在解决传统AI配音在复杂情绪爆发、精准口型匹配和多角色互动场景中的长期瓶颈问题。

该模型不仅是一个配音生成工具，更是一个全栈式配音系统，包含了配音模型本体和高质量数据集构建方法（CineDub）。它在GitHub、Hugging Face和ModelScope等平台开源，提供了30秒以内视频片段的推理能力。

所谓的“首克多人对话难题”指的是在影视配音中，AI难以同时处理多个人物的对白，导致口型不同步、情绪不匹配、音色不一致等问题。Fun-CineForge通过以下技术手段首次攻克了这一难题：

Fun-CineForge引入了“时间模态”和“视频模态”，构建了一个四模态融合的生成框架（视频、音频、文字、时间）。这意味着模型不仅理解文字和音频，还能“看到”视频画面和“感知”时间轴，从而实现更精准的配音控制。

它是全球首个支持双人对话和多人对话的影视级配音模型。这意味着它可以为一段包含多位角色的激烈争吵或复杂情绪爆发的场景生成配音，而不是只能处理单人旁白。

Fun-CineForge在“时间模态”的支持下，实现了合成语音与画面高度一致的口型同步（Lip-Sync）。它能够精确地将语音输出对齐到视频的关键帧，解决了过去模型在长视频配音中容易出现的“嘴巴闭合”或“卡顿”现象。

Fun-CineForge针对影视配音的特殊需求进行了优化，主要特性包括：

通义实验室在发布Fun-CineForge的同时，也开源了高质量数据集构建方法（CineDub），希望通过“数据+模型”的一体化设计，为AI在专业配音制作领域提供新的技术方案。他们表示，随着多模态大模型能力的不断提升，未来AI将在影视、动画、游戏等内容生产领域发挥更大的作用

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！