阿里发布全模态大模型Qwen3-Omni-Flash

AI解读 11小时前 硕雀
2 0

阿里全模态大模型 Qwen3‑Omni‑Flash 详细介绍


1. 背景与发布

  • 发布时间:2025 年 12 月 9 日,阿里巴巴在云栖大会上同步发布了全新全模态模型 Qwen3‑Omni‑Flash(亦称 Qwen3‑Omni‑Flash‑2025‑12‑01)。
  • 定位:在 Qwen3‑Omni 基础上实现“原生端到端”全模态能力,目标是让文本、图像、音频、视频四种模态能够在同一模型中无缝交互,提供实时流式输出,提升多模态交互的自然度与效率。

2. 核心技术与架构

  • Thinker‑Talker 双核架构
    • Thinker 负责文本语义理解与生成;
    • Talker 负责低延迟流式语音合成,实现“听‑说‑写”一体化交互。
  • 混合单模态与跨模态预训练:采用 AuT(Audio‑Text)预训练和多码本设计,使模型在每一种模态上都保持高性能,同时实现跨模态信息的高效融合。
  • 实时流式响应:用户输入的文本、图像、音视频信息可同步转化为高质量文本与自然语音输出,支持边输入边生成,适用于对话、会议记录等实时场景。

3. 模型规模与多模态能力

项目 说明
参数规模 主模型约 300 B 参数(Qwen3‑Omni‑Flash‑30B‑A3B 为开源轻量版),兼顾大模型性能与部署灵活性
支持模态 文本、图片、音频、视频四模态的 输入 与 文本/语音输出(可选多声线)
语言覆盖 119 种文本语言、19 种语音识别语言、10 种语音合成语言,支持多语言跨模态交互
流式模式 modalities=["text","audio"] 等组合,可在同一次请求中返回文本与音频流

4. 性能与基准

  • 音视频基准:在 36 项音视频评测中,取得 32 项开源模型最佳成绩,22 项达到 SOTA 水平,整体表现超过 GPT‑4o 与 Gemini‑2.5‑Flash。
  • 单模态保持:文本与图像单模态性能保持稳定,未因多模态融合而出现性能下降,实现“全模态不降智”。
  • 推理速度:双核架构与流式技术显著降低响应时延,适合实时对话与长时音视频理解(支持 30 分钟音频)。

5. 使用方式与生态

  • 开放平台:已在 Hugging Face、ModelScope、DashScope 以及官方聊天页面 https://chat.qwen.ai  上开放体验,用户可直接选择 “Qwen3‑Omni‑Flash” 并使用右下角的声波图标进行语音/视频交互。
  • API 调用示例(Python):
client.chat.completions.create(
    model="qwen3-omni-flash",
    messages=[{"role":"user","content":"请介绍一下你自己"}],
    modalities=["text","audio"],
    audio={"voice":"Cherry","format":"wav"},
    stream=True
)
  • 工具链集成:支持系统提示自定义、人设风格设定、工具调用(如检索、计算)等高级功能,便于在企业内部系统、车载、智能眼镜等场景落地。

6. 典型应用场景

  1. 多模态客服:用户可上传图片、音频或短视频,模型即时返回文字答案并配合语音播报。
  2. 会议记录与摘要:长时音频(30 min)实时转写并生成摘要,同时提供自然语音回放。
  3. 内容创作:文字+图片+音频混合提示生成创意文案、配乐或视频脚本。
  4. 跨语言翻译:支持 119 种文本语言的输入,输出可选语音合成,实现多语言会议实时翻译。
  5. 智能助理:在车载或 AR 眼镜中,模型可同时识别语音指令、摄像头画面与环境音,完成导航、信息查询等任务。

7. 未来展望

  • 模型迭代:阿里计划在后续版本中继续扩大参数规模、提升多模态感知深度,并进一步优化低功耗部署方案,以适配边缘设备。
  • 生态扩展:通过开放 API 与开源模型,鼓励社区在教育、医疗、媒体等行业开发专属垂直解决方案,推动全模态 AI 的产业化落地。

总结:Qwen3‑Omni‑Flash 是阿里在 2025 年推出的原生全模态大模型,凭借 Thinker‑Talker 双核架构、300 B 参数规模以及对文本、图像、音频、视频四模态的统一处理能力,已经在多项音视频基准中取得领先成绩。其开放的使用渠道与灵活的 API 设计,使其能够快速嵌入各类业务场景,标志着全模态 AI 向实用化、商业化迈出了关键一步。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!