Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

AI资讯 2个月前硕雀

29 0 0

Fish Audio S1 语音克隆模型升级概览

1. 背景与意义

随着生成式 AI 在语音合成领域的快速发展，用户对“少样本、高保真、情感丰富”的语音克隆需求日益增长。Fish Audio 在原有 Fish‑Speech 系统的基础上，于 2025 年推出 OpenAudio S1（亦称 S1 语音克隆模型），实现 仅 10 秒音频即可完整复刻真人声音，在情感表现力和拟真度上实现显著突破。

2. 核心升级点

升级内容	具体表现
极简样本	只需 10 秒的自然说话音频，即可生成与原声高度相似的克隆模型，保留口音、语调、节奏及说话习惯
情感与语调标签	支持愤怒、悲伤、兴奋、讽刺等情感标记，以及匆忙、喊叫、耳语等语调标记，能够精细控制生成语音的情感色彩和表达方式
零/少样本克隆	除 10 秒样本外，模型还能在零样本或少样本条件下进行语音克隆，适配不同用户需求
模型规模与训练	采用双自回归架构 + RLHF（奖励建模）训练，参数约 40 亿，在超过 200 万小时的多语言音频上进行大规模预训练
性能排名	在 TTS‑Arena 人类主观评测排行榜中位列第一，Seed‑TTS 评估的 CER = 0.4 %、WER = 0.8 %，显示出极低的字符/词错误率
多语言支持	已覆盖英语、中文、日语等主流语言，后续计划扩展至更多语言
版本划分	提供 S1（完整模型）和 S1‑mini（轻量版）两种规格，满足从高质量配音到低算力部署的不同场景

3. 技术实现细节

双自回归（Dual‑autoregressive）架构：在声码器层面引入双向自回归，使得生成的波形在时序上更连贯、细节更丰富。
RLHF（Reinforcement Learning from Human Feedback）‍：通过人类反馈进行奖励建模，显著提升情感表达的自然度和语音的可控性。
情感/语调标记体系：模型输入中加入专用标签（如 <angry>, <whisper>），在解码阶段引导声学特征向对应情感空间偏移。
少样本微调：在仅有 10 秒样本的情况下，模型利用预训练的通用声学知识进行快速微调，完成说话人特征的捕获。

4. 使用流程（10 秒克隆）

准备样本：录制约 10 秒的自然对话或朗读音频，确保音质清晰、背景噪声低。
上传至平台：在 fish.audio（或对应的 API）页面点击“上传音频”，系统自动完成特征提取。
选择情感/语调标签（可选）：根据需求勾选情感或语调标签，以实现更细腻的表达。
生成克隆模型：点击“创建克隆”，平台在数十秒内完成模型微调并返回可直接使用的 TTS 接口。
文本转语音：在同一页面输入文本，系统即以克隆声线合成语音，通常 20 秒左右即可得到完整音频。

5. 性能表现

相似度：主观评测显示克隆音频与原声的相似度约 70%–80%，在保留说话人独特的停顿、气息和语调细节方面表现突出。
情感控制：通过情感标签，可实现 情感强度可调（如轻度悲伤 → 强烈悲伤），并在实际案例中获得用户好评。
生成速度：文本合成平均 20 秒 完成，远低于传统声学模型的数分钟甚至数小时的推理时间。

6. 部署与获取方式

方式	说明
在线平台	直接在 fish.audio 网站使用，提供免费试用额度，付费套餐按生成字符数计费。
API 接口	支持 RESTful 调用，适配企业级批量合成需求，文档详见平台开发者中心。
开源模型	S1 与 S1‑mini 已在 HuggingFace 上开源，用户可自行下载并在本地或私有云部署，配套代码位于 GitHub `fishaudio/fish-speech`。
算力成本	官方给出参考：每百万字节计算费用约 15 美元，适合中小规模业务使用。

7. 典型应用场景

有声书与配音：快速生成作者本人声线的有声书章节。
教育与培训：为课程视频提供统一、情感丰富的讲师声线。
游戏与虚拟人：为角色配备专属语音，支持情绪切换。
企业客服：在客服机器人中使用克隆声线提升亲切感。
内容创作：自媒体、短视频创作者可用个人声线快速生成旁白。

8. 注意事项与限制

版权与合规：克隆声线仅限本人或已获授权的说话人使用，避免侵犯他人肖像权。
样本质量：10 秒样本的音质直接影响克隆效果，建议使用专业麦克风或在安静环境录制。
情感标签使用：过度叠加标签可能导致语音失真，建议逐步调试。
语言覆盖：当前正式支持的语言为 英语、中文、日语，其他语言仍在研发中。

总结
Fish Audio 的 S1 语音克隆模型通过 10 秒样本、双自回归+RLHF、情感标签 等技术创新，实现了高保真、情感可控的语音克隆。其在参数规模、训练数据量、评测排名等方面均处于业界领先水平，已通过在线平台、API 与开源模型三种渠道向用户开放，广泛适用于配音、教育、游戏等多场景。未来随着多语言扩展和实时交互功能的加入，S1 系列有望进一步推动 AI 语音技术的落地应用。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！

Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

1. 背景与意义

2. 核心升级点

3. 技术实现细节

4. 使用流程（10 秒克隆）

5. 性能表现

6. 部署与获取方式

7. 典型应用场景

8. 注意事项与限制

Google 为 Veo 系列新增的“精确编辑”功能

OpenAI最新发布了AI浏览器Atlas

Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

1. 背景与意义

2. 核心升级点

3. 技术实现细节

4. 使用流程（10 秒克隆）

5. 性能表现

6. 部署与获取方式

7. 典型应用场景

8. 注意事项与限制

Google 为 Veo 系列新增的“精确编辑”功能

OpenAI最新发布了AI浏览器Atlas

4. 使用流程（10 秒克隆）