Stability AI 近期发布了其最新的音频生成模型 Stable Audio 2.5,旨在为专业音效创作提供更高效的解决方案。该模型旨在帮助创意团队快速生成高质量、可定制的音频作品,以满足市场对音频内容日益增长的需求。
核心功能与技术亮点
- 更复杂的生成能力
Stable Audio 2.5 能够创作包含前奏、发展和结尾的多段音乐作品。用户只需几秒钟即可生成一段三分钟的音乐,并且在英伟达 H100 GPU 上,处理时间甚至不到两秒。 - 情感与风格理解
该模型能够更准确地响应情感提示(如“鼓舞人心”),并理解特定的音乐风格提示(如“丰富的合成器声音”)。 - 技术架构
Stable Audio 2.5 采用 Adversarial Relativistic-Contrastive(ARC)技术,可高效生成复杂音乐结构。该模型在英伟达 H100 GPU 上,2 秒内可生成最长 3 分钟音频,支持多段落结构,并集成音频修复功能,允许用户上传现有音频进行续写。 - 版权与合规性
Stable Audio 2.5 基于 licensed 数据集训练,通过版权识别系统限制用户上传版权受限内容,确保商用合规。 - 移动端支持
同时推出移动端轻量版 Stable Audio Open Small,可在手机端 7 秒生成 11 秒立体声。
应用场景与用户需求
- 创意团队:为音乐制作、影视配乐、游戏音效等提供高效、高质量的音频生成工具。
- 商业项目:支持生成可定制音频,满足商用场景下更复杂的音频编排需求。
- 音频修复与扩展:用户可上传现有音频素材,指定起始位置后,模型将依据上下文线索自动补全剩余音轨。
与前代版本的对比
- Stable Audio 2.0(2024年发布)在生成音频长度、多段落结构、音频到音频生成等方面有所提升,但距离帮助用户用音乐表达想法仍有差距。
- Stable Audio 2.5 在处理速度、控制精度和生成能力上全面升级,进一步提升了专业音频生成的效率和质量。
总结
Stable Audio 2.5 是 Stability AI 在音频生成领域的重要升级,通过更先进的技术、更高效的处理能力和更广泛的应用场景,为专业音频创作提供了更强大的工具。无论是音乐制作人、影视音效师,还是商业项目团队,都能从中受益
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!