阿里通义开源语音交互大模型Fun-Audio-Chat-8B

AI解读 2小时前 硕雀
2 0

阿里通义 Fun‑Audio‑Chat‑8B 详细介绍


1. 背景与发布时间

  • 2025 年 12 月 23 日,阿里通义在魔搭社区、Hugging Face 与 GitHub 同步开源了新一代端到端语音交互大模型 Fun‑Audio‑Chat‑8B
  • 该模型属于通义百聆(Fun‑ASR、Fun‑CosyVoice)语音模型家族的最新成员,定位为“能听会说”的全链路语音对话系统。

2. 模型概览

项目 内容
模型规模 8 B 参数(约 80 亿)
核心任务 语音‑to‑语音(S2S)对话,直接从用户语音输入生成语音回复,无需传统的 ASR + LLM + TTS 三段拼接
输入/输出 支持单轮与多轮语音交互,能够捕捉语气、语速、情感等细粒度信息,并在回复中体现情感共情
适用场景 语音聊天、情感陪伴、智能终端交互、语音客服、角色扮演、语音函数调用等

3. 架构创新

  1. 双分辨率端到端设计
    • 采用 压缩‑自回归‑解压缩(Compression‑AR‑Decompression)结构。
    • 通过 压缩层 将原始音频帧率降至 5 Hz(业界最低),随后在自回归层生成低分辨率音频,再由解压缩层恢复至 25 Hz 高质量音频。
    • 该方案在保持语音质量的前提下,节省约 50% GPU 计算,显著降低部署成本。
  2. 基于 Transformer 的统一语言模型
    • 共享的 LLM 主干负责跨模态语义理解与生成,兼容文本与音频两种 token 序列。
    • 细粒度的 Speech Refined Head 负责高分辨率音频细节恢复,实现流畅自然的语音输出。

4. 训练策略

步骤 关键技术 目的
阶段一 Core‑Cocktail 两阶段训练:先在大规模语音‑多模态数据上学习新技能,再与原始纯文本大模型参数合并 快速获取语音交互能力,同时避免 灾难性遗忘(保留原有文本理解)
阶段二 多任务 DPO(偏好对齐)‍:包括情感感知、指令遵循、函数调用等任务 让模型在真实对话中更好捕捉用户情绪与意图,提升自然度与实用性
后训练 人类偏好对齐(Human‑Preference Alignment) 通过人类反馈微调,使回复更符合人类期望的礼貌、共情与逻辑性

5. 性能评测(SOTA 结果)

  • 在 OpenAudioBench、VoiceBench、UltraEval‑Audio、MMAU、MMSU、SpeechFunctionCall 等权威基准上,Fun‑Audio‑Chat‑8B 均取得 同尺寸模型第一 的成绩,超越 GLM‑4‑Voice、Kimi‑Audio、Baichuan‑Omni 等竞争模型。
  • 具体表现包括:
    • 语音识别 与 语音生成 质量兼顾,WER 与 MOS 均领先同类 8 B 模型。
    • 情感共情 与 函数调用 能力在 Speech‑Function‑Call 基准上实现 SOTA

6. 开源与使用方式

  • 代码与模型:已同步发布至 ModelScope(魔搭社区)‍、Hugging Face 与 GitHub,提供完整的训练、推理脚本以及 Docker 镜像。
  • Github:https://funaudiollm.github.io/funaudiochat/
  • 推理框架:支持 PyTorchTensorFlow 与 ONNX,配套的 FastAPI Demo 可直接在线体验语音对话。
  • 许可证:采用 Apache 2.0 开源协议,允许商业使用与二次开发。

7. 关键优势总结

  1. 全链路端到端:一次前向即可完成语音‑to‑语音交互,显著降低延迟。
  2. 高效低算力:双分辨率设计让 GPU 计算量下降约 50%,适合边缘设备部署。
  3. 强共情与多任务:通过 Core‑Cocktail 与人类偏好对齐,模型在情感理解、指令遵循、函数调用等方面表现突出。
  4. 开源生态:模型、代码、Demo 均已开放,社区可快速接入并进行二次创新。

8. 未来展望

  • 阿里通义计划在 Fun‑Audio‑Chat‑Duplex(全双工)版本中进一步提升 实时双向语音交互 能力,兼容更复杂的多轮对话与即时语音指令。
  • 随着 多模态 与 大规模音频预训练 的持续推进,后续版本有望在 音频理解深度 与 跨语言 能力上实现更大突破。

一句话概括:Fun‑Audio‑Chat‑8B 是阿里通义推出的首个具备高效低算力、强共情与全链路语音‑to‑语音能力的 8 B 大模型,已在多项权威基准实现同尺寸模型第一,并以 Apache 2.0 开源,为语音交互应用提供了可直接落地的技术基座。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!