StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI Step‑Audio‑EditX 详细介绍


一、项目概览

Step‑Audio‑EditX 是由 StepFun AI(阶跃星辰)‍ 在 2025 年 11 月正式开源的全球首个 LLM 级音频编辑大模型,定位为“用自然语言指令编辑语音”。模型基于 30 亿参数的 Audio LLM,实现了从文本到语音(Zero‑shot TTS)以及对已有音频的 情感、说话风格、方言和副语言 三维度的细粒度编辑,真正把音频编辑的操作方式提升到类似文本编辑的直观程度。


二、核心技术与架构

关键技术 说明
音频分词器双码本 将原始波形转化为离散音频 token,支持高保真重建,配合 BigVGANv2 解码器实现流畅合成
统一 LLM 框架 采用 3 B 参数的音频语言模型,所有编辑指令均以文本形式输入,模型内部统一处理情感、风格、方言等属性
两阶段训练(SFT + PPO) 首先在大规模合成数据上进行监督微调(SFT),随后通过强化学习(PPO)提升属性解耦与迭代控制能力
属性解耦与迭代控制 通过大边距合成数据实现 零样本 的情感、风格、方言编辑,无需额外编码器或适配器,支持多轮迭代细调
量化与部署 提供 8‑bit/4‑bit 量化模型,单卡 8 GB 显存即可运行,配套 Docker 镜像、Python 包和 Gradio 演示,降低部署门槛

三、主要功能与使用体验

  1. Zero‑shot TTS:仅输入文字即可生成自然流畅的语音,支持普通话、英语、四川话、粤语等多语言/方言。
  2. 情感编辑:可调节情绪强度(如高兴、悲伤、惊讶等),第三方盲测情感传递准确率达 93.7%
  3. 说话风格:提供撒娇、老人、小孩、耳语等数十种风格,细粒度控制语调、语速。
  4. 副语言(噪声/呼吸/笑声等)‍:内置 10 类自然副语言 token,支持在编辑过程中插入呼吸、笑声、叹气等细节,使合成更真实。
  5. 方言切换:模型对四川话、粤语等方言的音色和语气把握自然,方言表现力评分比同类产品高出 17%
  6. 音色保真:在音色还原度上达到 98.1%,在自然度、情感表达、音色保真三大维度全面领先 Minimax、字节跳动 Doubao 等闭源方案。

四、开源资源与生态


五、典型应用场景

场景 价值
有声内容升级 通过情感与风格编辑提升有声书、播客的听感,快速生成多语言版本。
短视频配音 用文字指令快速生成符合视频氛围的配音,支持方言和情绪匹配。
游戏角色语音 为虚拟角色提供多样化的说话风格和情感表现,提升沉浸感。
智能客服/教育 生成自然亲切的语音回复,支持方言和情感调节,提升用户体验
会议记录与转写 对转写音频进行噪声、呼吸等副语言清理,提升可听性。

这些场景已在官方博客和技术报告中列举,展示了模型在 创意创作、商业服务、教育培训 等领域的广阔前景。


六、未来展望

Step‑Audio‑EditX 的开源不仅为音频编辑提供了 LLM 级的可控能力,也为后续的 多模态生成(如音视频联动)奠定了技术基础。社区已经开始围绕模型进行二次微调、插件化扩展以及跨语言迁移实验,预计在 2026 年前会出现更多基于该模型的行业化解决方案。


总结:StepFun AI 的 Step‑Audio‑EditX 通过统一的 LLM 框架、创新的音频分词与解码技术,实现了从 零样本 TTS 到 情感/风格/方言/副语言 多维度编辑的全链路可控,性能指标在行业内领先,并以 完整开源 的形式提供代码、模型、文档和在线演示,为音频创作和 AI 语音服务打开了全新的可能性。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!