阿里通义 Fun‑Audio‑Chat‑8B 详细介绍
1. 背景与发布时间
- 2025 年 12 月 23 日,阿里通义在魔搭社区、Hugging Face 与 GitHub 同步开源了新一代端到端语音交互大模型 Fun‑Audio‑Chat‑8B。
- 该模型属于通义百聆(Fun‑ASR、Fun‑CosyVoice)语音模型家族的最新成员,定位为“能听会说”的全链路语音对话系统。
2. 模型概览
| 项目 | 内容 |
|---|---|
| 模型规模 | 8 B 参数(约 80 亿) |
| 核心任务 | 语音‑to‑语音(S2S)对话,直接从用户语音输入生成语音回复,无需传统的 ASR + LLM + TTS 三段拼接 |
| 输入/输出 | 支持单轮与多轮语音交互,能够捕捉语气、语速、情感等细粒度信息,并在回复中体现情感共情 |
| 适用场景 | 语音聊天、情感陪伴、智能终端交互、语音客服、角色扮演、语音函数调用等 |
3. 架构创新
- 双分辨率端到端设计
- 基于 Transformer 的统一语言模型
4. 训练策略
| 步骤 | 关键技术 | 目的 |
|---|---|---|
| 阶段一 | Core‑Cocktail 两阶段训练:先在大规模语音‑多模态数据上学习新技能,再与原始纯文本大模型参数合并 | 快速获取语音交互能力,同时避免 灾难性遗忘(保留原有文本理解) |
| 阶段二 | 多任务 DPO(偏好对齐):包括情感感知、指令遵循、函数调用等任务 | 让模型在真实对话中更好捕捉用户情绪与意图,提升自然度与实用性 |
| 后训练 | 人类偏好对齐(Human‑Preference Alignment) | 通过人类反馈微调,使回复更符合人类期望的礼貌、共情与逻辑性 |
5. 性能评测(SOTA 结果)
- 在 OpenAudioBench、VoiceBench、UltraEval‑Audio、MMAU、MMSU、SpeechFunctionCall 等权威基准上,Fun‑Audio‑Chat‑8B 均取得 同尺寸模型第一 的成绩,超越 GLM‑4‑Voice、Kimi‑Audio、Baichuan‑Omni 等竞争模型。
- 具体表现包括:
6. 开源与使用方式
- 代码与模型:已同步发布至 ModelScope(魔搭社区)、Hugging Face 与 GitHub,提供完整的训练、推理脚本以及 Docker 镜像。
- Github:https://funaudiollm.github.io/funaudiochat/
- 推理框架:支持 PyTorch、TensorFlow 与 ONNX,配套的 FastAPI Demo 可直接在线体验语音对话。
- 许可证:采用 Apache 2.0 开源协议,允许商业使用与二次开发。
7. 关键优势总结
- 全链路端到端:一次前向即可完成语音‑to‑语音交互,显著降低延迟。
- 高效低算力:双分辨率设计让 GPU 计算量下降约 50%,适合边缘设备部署。
- 强共情与多任务:通过 Core‑Cocktail 与人类偏好对齐,模型在情感理解、指令遵循、函数调用等方面表现突出。
- 开源生态:模型、代码、Demo 均已开放,社区可快速接入并进行二次创新。
8. 未来展望
- 阿里通义计划在 Fun‑Audio‑Chat‑Duplex(全双工)版本中进一步提升 实时双向语音交互 能力,兼容更复杂的多轮对话与即时语音指令。
- 随着 多模态 与 大规模音频预训练 的持续推进,后续版本有望在 音频理解深度 与 跨语言 能力上实现更大突破。
一句话概括:Fun‑Audio‑Chat‑8B 是阿里通义推出的首个具备高效低算力、强共情与全链路语音‑to‑语音能力的 8 B 大模型,已在多项权威基准实现同尺寸模型第一,并以 Apache 2.0 开源,为语音交互应用提供了可直接落地的技术基座。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!