腾讯联手清华发布 SongGeneration 2

AI资讯 3小时前硕雀

3 0 0

腾讯联手清华发布 SongGeneration 2 详细介绍

SongGeneration 2（以下简称 SongGeneration2）是腾讯 AI Lab 与清华大学人机语音交互实验室（HMIR Lab）联合研发的最新一代音乐基础模型。该模型于 2026年3月9日 正式发布，标志着 AI 音乐技术从“极客玩具”进入“商业级应用”阶段。

以下是关于 SongGeneration2 的详细解析：

1. 核心技术突破与架构

SongGeneration2 采用了全新的“双核驱动 + 分层表征”混搭架构，这是其性能超越前代模型的关键所在。

双核驱动：
- LeLM（作曲大脑）‍：基于大型语言模型（LLM），负责整体结构规划和演唱细节的指引。它类似于人类编曲师，决定乐句如何展开，确保音乐的逻辑性和可控性。
- 高保真渲染器：基于扩散模型（Diffusion），在 LeLM 的指引下，合成丰富且真实的声学纹理，使生成的声音细腻且富有表现力。
混合表征与多轨并行建模：这一策略兼顾了旋律的稳定性与音质的精细度，确保了生成音乐在结构复杂性（PC）和制作质量（PQ）上的卓越表现。

2. 性能与质量

SongGeneration2 在多个核心维度上取得了“断崖式”领先，解决了 AI 音乐长期存在的三大痛点：

音乐性：生成的音乐听感自然，能“表达”想表达的东西，而不是简单的“AI味”。
歌词准确性：引入了混合表征策略，显著降低了音素错误率（PER），降至 8.55%，优于许多商业模型。
可控性：通过 LeLM 的指引，用户可以对编曲结构、编排细节进行更精细的控制。

3. 参数规模与部署

模型规模：SongGeneration2 的大型版本参数量为 4B（SongGeneration-v2-large）。
部署友好：得益于 4B 规模的模型设计，该模型能够在消费级显卡上运行，显著降低了创作门槛，普通独立音乐人无需高昂的算力成本即可体验。

4. 开源与生态

开源策略：腾讯与清华大学坚持开放策略，SongGeneration2 已正式开源，支持中英多语种生成。开源版本已在 HuggingFace 等平台发布，支持开发者快速调用。
行业影响：该模型的发布被视为 AI 音乐赛道的重大里程碑，标志着 AI 音乐从“生成”走向“协作”。它不仅是技术的突破，也将推动“全民作曲家”愿景的实现，可能引发新一轮的商业化创新。

5. 未来展望

版本迭代：团队计划推出适配不同显存需求的版本，以适应更广泛的硬件环境。
评估框架：正在构建自动化评估框架，旨在建立更客观、标准化的 AI 音乐评测体系，推动整个行业的健康发展。

总结：SongGeneration2 是一款融合了语言模型与扩散模型优势的高质量 AI 音乐生成模型。它不仅在技术指标上实现了突破，更通过开源策略推动了 AI 音乐生态的繁荣，具有极高的学术价值和商业潜力。

SongGeneration SongGeneration 2

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！