StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

AI资讯 4个月前硕雀

72 0 0

StepFun AI Step‑Audio‑EditX 详细介绍

一、项目概览

Step‑Audio‑EditX 是由 StepFun AI（阶跃星辰）‍ 在 2025 年 11 月正式开源的全球首个 LLM 级音频编辑大模型，定位为“用自然语言指令编辑语音”。模型基于 30 亿参数的 Audio LLM，实现了从文本到语音（Zero‑shot TTS）以及对已有音频的 情感、说话风格、方言和副语言 三维度的细粒度编辑，真正把音频编辑的操作方式提升到类似文本编辑的直观程度。

二、核心技术与架构

关键技术	说明
音频分词器（双码本）‍	将原始波形转化为离散音频 token，支持高保真重建，配合 BigVGANv2 解码器实现流畅合成
统一 LLM 框架	采用 3 B 参数的音频语言模型，所有编辑指令均以文本形式输入，模型内部统一处理情感、风格、方言等属性
两阶段训练（SFT + PPO）‍	首先在大规模合成数据上进行监督微调（SFT），随后通过强化学习（PPO）提升属性解耦与迭代控制能力
属性解耦与迭代控制	通过大边距合成数据实现零样本的情感、风格、方言编辑，无需额外编码器或适配器，支持多轮迭代细调
量化与部署	提供 8‑bit/4‑bit 量化模型，单卡 8 GB 显存即可运行，配套 Docker 镜像、Python 包和 Gradio 演示，降低部署门槛

三、主要功能与使用体验

Zero‑shot TTS：仅输入文字即可生成自然流畅的语音，支持普通话、英语、四川话、粤语等多语言/方言。
情感编辑：可调节情绪强度（如高兴、悲伤、惊讶等），第三方盲测情感传递准确率达 93.7%。
说话风格：提供撒娇、老人、小孩、耳语等数十种风格，细粒度控制语调、语速。
副语言（噪声/呼吸/笑声等）‍：内置 10 类自然副语言 token，支持在编辑过程中插入呼吸、笑声、叹气等细节，使合成更真实。
方言切换：模型对四川话、粤语等方言的音色和语气把握自然，方言表现力评分比同类产品高出 17%。
音色保真：在音色还原度上达到 98.1%，在自然度、情感表达、音色保真三大维度全面领先 Minimax、字节跳动 Doubao 等闭源方案。

四、开源资源与生态

代码仓库：GitHub（<https://github.com/stepfun-ai/Step-Audio-EditX >）提供完整训练/推理代码、模型权重、Dockerfile。
模型托管：HuggingFace（<https://huggingface.co/stepfun-ai/Step-Audio-EditX >）可直接下载 8‑bit 量化版。
在线演示：Gradio Demo 与 HF Space（<https://stepaudiollm.github.io/step-audio-editx/ >）支持即点即用的编辑体验。
文档与论文：官方技术博客、arXiv 预印本（arXiv:2511.03601）详细阐述模型设计与实验结果。

五、典型应用场景

场景	价值
有声内容升级	通过情感与风格编辑提升有声书、播客的听感，快速生成多语言版本。
短视频配音	用文字指令快速生成符合视频氛围的配音，支持方言和情绪匹配。
游戏角色语音	为虚拟角色提供多样化的说话风格和情感表现，提升沉浸感。
智能客服/教育	生成自然亲切的语音回复，支持方言和情感调节，提升用户体验。
会议记录与转写	对转写音频进行噪声、呼吸等副语言清理，提升可听性。

这些场景已在官方博客和技术报告中列举，展示了模型在 创意创作、商业服务、教育培训 等领域的广阔前景。

六、未来展望

Step‑Audio‑EditX 的开源不仅为音频编辑提供了 LLM 级的可控能力，也为后续的 多模态生成（如音视频联动）奠定了技术基础。社区已经开始围绕模型进行二次微调、插件化扩展以及跨语言迁移实验，预计在 2026 年前会出现更多基于该模型的行业化解决方案。

总结：StepFun AI 的 Step‑Audio‑EditX 通过统一的 LLM 框架、创新的音频分词与解码技术，实现了从 零样本 TTS 到 情感/风格/方言/副语言 多维度编辑的全链路可控，性能指标在行业内领先，并以 完整开源 的形式提供代码、模型、文档和在线演示，为音频创作和 AI 语音服务打开了全新的可能性。

Step-Audio-EditX 开源音频编辑模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！