微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破

AI资讯 4小时前 硕雀
2 0

微软开源了创新音频模型VibeVoice-1.5B,该模型在语音合成领域实现了多项技术突破。该模型可一次性合成90分钟超长逼真语音,显著超越此前多数模型60分钟的上限。传统模型在30分钟后常出现音色漂移、语义断裂等问题,而VibeVoice-1.5B通过架构优化有效缓解这些缺陷,为长音频内容创作、有声读物及虚拟助手等场景提供更稳定的技术支持。

VibeVoice-1.5B支持最多4名发言人,而之前开源的SesameAILabs-CSM、HiggsAudio-V2等知名模型最多支持2人。该模型还实现了24kHz原始音频的3200倍累计压缩,并且压缩效率是主流Encodec模型的80倍,同时仍能保持高保真语音效果。其创新双tokenizer架构(声学+语义)解决了音色漂移问题,通过课程学习策略优化训练效率。

VibeVoice-1.5B的发布标志着语音合成技术的重大进步,为行业提供了更强大的工具,推动音频技术的发展。该模型的开源为行业提供了更强大的工具,推动音频技术的发展

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!