腾讯联手清华发布 SongGeneration 2

AI资讯 3小时前 硕雀
3 0

腾讯联手清华发布 SongGeneration 2 详细介绍

SongGeneration 2(以下简称 SongGeneration2)是腾讯 AI Lab 与清华大学人机语音交互实验室(HMIR Lab)联合研发的最新一代音乐基础模型。该模型于 2026年3月9日 正式发布,标志着 AI 音乐技术从“极客玩具”进入“商业级应用”阶段。

以下是关于 SongGeneration2 的详细解析:

1. 核心技术突破与架构

SongGeneration2 采用了全新的“双核驱动 + 分层表征”混搭架构,这是其性能超越前代模型的关键所在。

  • 双核驱动
    • LeLM(作曲大脑)‍:基于大型语言模型(LLM),负责整体结构规划和演唱细节的指引。它类似于人类编曲师,决定乐句如何展开,确保音乐的逻辑性和可控性。
    • 高保真渲染器:基于扩散模型(Diffusion),在 LeLM 的指引下,合成丰富且真实的声学纹理,使生成的声音细腻且富有表现力。
  • 混合表征与多轨并行建模:这一策略兼顾了旋律的稳定性与音质的精细度,确保了生成音乐在结构复杂性(PC)和制作质量(PQ)上的卓越表现。

2. 性能与质量

SongGeneration2 在多个核心维度上取得了“断崖式”领先,解决了 AI 音乐长期存在的三大痛点:

  • 音乐性:生成的音乐听感自然,能“表达”想表达的东西,而不是简单的“AI味”。
  • 歌词准确性:引入了混合表征策略,显著降低了音素错误率PER),降至 8.55%,优于许多商业模型。
  • 可控性:通过 LeLM 的指引,用户可以对编曲结构、编排细节进行更精细的控制。

3. 参数规模与部署

  • 模型规模:SongGeneration2 的大型版本参数量为 4B(SongGeneration-v2-large)。
  • 部署友好:得益于 4B 规模的模型设计,该模型能够在消费级显卡上运行,显著降低了创作门槛,普通独立音乐人无需高昂的算力成本即可体验。

4. 开源与生态

  • 开源策略:腾讯与清华大学坚持开放策略,SongGeneration2 已正式开源,支持中英多语种生成。开源版本已在 HuggingFace 等平台发布,支持开发者快速调用。
  • 行业影响:该模型的发布被视为 AI 音乐赛道的重大里程碑,标志着 AI 音乐从“生成”走向“协作”。它不仅是技术的突破,也将推动“全民作曲家”愿景的实现,可能引发新一轮的商业化创新。

5. 未来展望

  • 版本迭代:团队计划推出适配不同显存需求的版本,以适应更广泛的硬件环境。
  • 评估框架:正在构建自动化评估框架,旨在建立更客观、标准化的 AI 音乐评测体系,推动整个行业的健康发展。

总结:SongGeneration2 是一款融合了语言模型与扩散模型优势的高质量 AI 音乐生成模型。它不仅在技术指标上实现了突破,更通过开源策略推动了 AI 音乐生态的繁荣,具有极高的学术价值和商业潜力。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!