Fish Audio 推出 S1 语音克隆模型升级:10 秒即可复刻真人语音

AI资讯 8小时前 硕雀
2 0

Fish Audio S1 语音克隆模型升级概览


1. 背景与意义

随着生成式 AI语音合成领域的快速发展,用户对“少样本、高保真、情感丰富”的语音克隆需求日益增长。Fish Audio 在原有 Fish‑Speech 系统的基础上,于 2025 年推出 OpenAudio S1(亦称 S1 语音克隆模型),实现 仅 10 秒音频即可完整复刻真人声音,在情感表现力和拟真度上实现显著突破。


2. 核心升级点

升级内容 具体表现
极简样本 只需 10 秒的自然说话音频,即可生成与原声高度相似的克隆模型,保留口音、语调、节奏及说话习惯
情感与语调标签 支持愤怒、悲伤、兴奋、讽刺等情感标记,以及匆忙、喊叫、耳语等语调标记,能够精细控制生成语音的情感色彩和表达方式
零/少样本克隆 除 10 秒样本外,模型还能在零样本或少样本条件下进行语音克隆,适配不同用户需求
模型规模与训练 采用 自回归架构 + RLHF(奖励建模)训练,参数约 40 亿,在超过 200 万小时 的多语言音频上进行大规模预训练
性能排名 在 TTS‑Arena 人类主观评测排行榜中位列第一,Seed‑TTS 评估的 CER = 0.4 %WER = 0.8 %,显示出极低的字符/词错误率
多语言支持 已覆盖 英语、中文、日语 等主流语言,后续计划扩展至更多语言
版本划分 提供 S1(完整模型)和 S1‑mini(轻量版)两种规格,满足从高质量配音到低算力部署的不同场景

3. 技术实现细节

  1. 双自回归(Dual‑autoregressive)架构:在声码器层面引入双向自回归,使得生成的波形在时序上更连贯、细节更丰富。
  2. RLHF(Reinforcement Learning from Human Feedback‍:通过人类反馈进行奖励建模,显著提升情感表达的自然度和语音的可控性。
  3. 情感/语调标记体系:模型输入中加入专用标签(如 <angry><whisper>),在解码阶段引导声学特征向对应情感空间偏移。
  4. 少样本微调:在仅有 10 秒样本的情况下,模型利用预训练的通用声学知识进行快速微调,完成说话人特征的捕获。

4. 使用流程(10 秒克隆)

  1. 准备样本:录制约 10 秒的自然对话或朗读音频,确保音质清晰、背景噪声低。
  2. 上传至平台:在 fish.audio(或对应的 API)页面点击“上传音频”,系统自动完成特征提取
  3. 选择情感/语调标签(可选):根据需求勾选情感或语调标签,以实现更细腻的表达。
  4. 生成克隆模型:点击“创建克隆”,平台在数十秒内完成模型微调并返回可直接使用的 TTS 接口。
  5. 文本转语音:在同一页面输入文本,系统即以克隆声线合成语音,通常 20 秒左右即可得到完整音频。

5. 性能表现

  • 相似度:主观评测显示克隆音频与原声的相似度约 70%–80%,在保留说话人独特的停顿、气息和语调细节方面表现突出。
  • 情感控制:通过情感标签,可实现 情感强度可调(如轻度悲伤 → 强烈悲伤),并在实际案例中获得用户好评。
  • 生成速度:文本合成平均 20 秒 完成,远低于传统声学模型的数分钟甚至数小时的推理时间。

6. 部署与获取方式

方式 说明
在线平台 直接在 fish.audio 网站使用,提供免费试用额度,付费套餐按生成字符数计费。
API 接口 支持 RESTful 调用,适配企业级批量合成需求,文档详见平台开发者中心。
开源模型 S1 与 S1‑mini 已在 HuggingFace 上开源,用户可自行下载并在本地或私有云部署,配套代码位于 GitHub fishaudio/fish-speech
算力成本 官方给出参考:每百万字节 计算费用约 15 美元,适合中小规模业务使用。

7. 典型应用场景

  • 有声书与配音:快速生成作者本人声线的有声书章节。
  • 教育与培训:为课程视频提供统一、情感丰富的讲师声线。
  • 游戏与虚拟人:为角色配备专属语音,支持情绪切换。
  • 企业客服:在客服机器人中使用克隆声线提升亲切感。
  • 内容创作:自媒体、短视频创作者可用个人声线快速生成旁白。

8. 注意事项与限制

  1. 版权与合规:克隆声线仅限本人或已获授权的说话人使用,避免侵犯他人肖像权。
  2. 样本质量:10 秒样本的音质直接影响克隆效果,建议使用专业麦克风或在安静环境录制。
  3. 情感标签使用:过度叠加标签可能导致语音失真,建议逐步调试。
  4. 语言覆盖:当前正式支持的语言为 英语、中文、日语,其他语言仍在研发中。

总结
Fish Audio 的 S1 语音克隆模型通过 10 秒样本、双自回归+RLHF、情感标签 等技术创新,实现了高保真、情感可控的语音克隆。其在参数规模、训练数据量、评测排名等方面均处于业界领先水平,已通过在线平台、API 与开源模型三种渠道向用户开放,广泛适用于配音、教育、游戏等多场景。未来随着多语言扩展和实时交互功能的加入,S1 系列有望进一步推动 AI 语音技术的落地应用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!