微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

AI资讯 7个月前硕雀

261 0 0

微软开源了创新音频模型VibeVoice-1.5B，该模型在语音合成领域实现了多项技术突破。该模型可一次性合成90分钟超长逼真语音，显著超越此前多数模型60分钟的上限。传统模型在30分钟后常出现音色漂移、语义断裂等问题，而VibeVoice-1.5B通过架构优化有效缓解这些缺陷，为长音频内容创作、有声读物及虚拟助手等场景提供更稳定的技术支持。

VibeVoice-1.5B支持最多4名发言人，而之前开源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人。该模型还实现了24kHz原始音频的3200倍累计压缩，并且压缩效率是主流Encodec模型的80倍，同时仍能保持高保真语音效果。其创新双tokenizer架构（声学+语义）解决了音色漂移问题，通过课程学习策略优化训练效率。

VibeVoice-1.5B的发布标志着语音合成技术的重大进步，为行业提供了更强大的工具，推动音频技术的发展。该模型的开源为行业提供了更强大的工具，推动音频技术的发展

VibeVoice VibeVoice-1.5B模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

微软开源 VibeVoice-1.5B 模型：90 分钟超长语音合成新突破

字节跳动内测全新 3D 模型生成工具 “3D Model Generator”

良品铺子为“花生上树”海报致歉：系错误使用AI生成的图片