阿里通义开源语音交互大模型Fun-Audio-Chat-8B

AI解读 2个月前硕雀

51 0 0

阿里通义 Fun‑Audio‑Chat‑8B 详细介绍

1. 背景与发布时间

2025 年 12 月 23 日，阿里通义在魔搭社区、Hugging Face 与 GitHub 同步开源了新一代端到端语音交互大模型 Fun‑Audio‑Chat‑8B。
该模型属于通义百聆（Fun‑ASR、Fun‑CosyVoice）语音模型家族的最新成员，定位为“能听会说”的全链路语音对话系统。

2. 模型概览

项目	内容
模型规模	8 B 参数（约 80 亿）
核心任务	语音‑to‑语音（S2S）对话，直接从用户语音输入生成语音回复，无需传统的 ASR + LLM + TTS 三段拼接
输入/输出	支持单轮与多轮语音交互，能够捕捉语气、语速、情感等细粒度信息，并在回复中体现情感共情
适用场景	语音聊天、情感陪伴、智能终端交互、语音客服、角色扮演、语音函数调用等

3. 架构创新

双分辨率端到端设计
- 采用 压缩‑自回归‑解压缩（Compression‑AR‑Decompression）结构。
- 通过 压缩层 将原始音频帧率降至 5 Hz（业界最低），随后在自回归层生成低分辨率音频，再由解压缩层恢复至 25 Hz 高质量音频。
- 该方案在保持语音质量的前提下，节省约 50% GPU 计算，显著降低部署成本。
基于 Transformer 的统一语言模型
- 共享的 LLM 主干负责跨模态语义理解与生成，兼容文本与音频两种 token 序列。
- 细粒度的 Speech Refined Head 负责高分辨率音频细节恢复，实现流畅自然的语音输出。

4. 训练策略

步骤	关键技术	目的
阶段一	Core‑Cocktail 两阶段训练：先在大规模语音‑多模态数据上学习新技能，再与原始纯文本大模型参数合并	快速获取语音交互能力，同时避免灾难性遗忘（保留原有文本理解）
阶段二	多任务 DPO（偏好对齐）‍：包括情感感知、指令遵循、函数调用等任务	让模型在真实对话中更好捕捉用户情绪与意图，提升自然度与实用性
后训练	人类偏好对齐（Human‑Preference Alignment）	通过人类反馈微调，使回复更符合人类期望的礼貌、共情与逻辑性

5. 性能评测（SOTA 结果）

在 OpenAudioBench、VoiceBench、UltraEval‑Audio、MMAU、MMSU、SpeechFunctionCall 等权威基准上，Fun‑Audio‑Chat‑8B 均取得 同尺寸模型第一 的成绩，超越 GLM‑4‑Voice、Kimi‑Audio、Baichuan‑Omni 等竞争模型。
具体表现包括：
- 语音识别 与 语音生成 质量兼顾，WER 与 MOS 均领先同类 8 B 模型。
- 情感共情 与 函数调用 能力在 Speech‑Function‑Call 基准上实现 SOTA。

6. 开源与使用方式

代码与模型：已同步发布至 ModelScope（魔搭社区）‍、Hugging Face 与 GitHub，提供完整的训练、推理脚本以及 Docker 镜像。
Github：https://funaudiollm.github.io/funaudiochat/
推理框架：支持 PyTorch、TensorFlow 与 ONNX，配套的 FastAPI Demo 可直接在线体验语音对话。
许可证：采用 Apache 2.0 开源协议，允许商业使用与二次开发。

7. 关键优势总结

全链路端到端：一次前向即可完成语音‑to‑语音交互，显著降低延迟。
高效低算力：双分辨率设计让 GPU 计算量下降约 50%，适合边缘设备部署。
强共情与多任务：通过 Core‑Cocktail 与人类偏好对齐，模型在情感理解、指令遵循、函数调用等方面表现突出。
开源生态：模型、代码、Demo 均已开放，社区可快速接入并进行二次创新。

8. 未来展望

阿里通义计划在 Fun‑Audio‑Chat‑Duplex（全双工）版本中进一步提升 实时双向语音交互 能力，兼容更复杂的多轮对话与即时语音指令。
随着 多模态 与 大规模音频预训练 的持续推进，后续版本有望在 音频理解深度 与 跨语言 能力上实现更大突破。

一句话概括：Fun‑Audio‑Chat‑8B 是阿里通义推出的首个具备高效低算力、强共情与全链路语音‑to‑语音能力的 8 B 大模型，已在多项权威基准实现同尺寸模型第一，并以 Apache 2.0 开源，为语音交互应用提供了可直接落地的技术基座。

Fun-Audio-Chat-8B 语音交互大模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！