阿里全模态大模型 Qwen3‑Omni‑Flash 详细介绍
1. 背景与发布
- 发布时间:2025 年 12 月 9 日,阿里巴巴在云栖大会上同步发布了全新全模态模型 Qwen3‑Omni‑Flash(亦称 Qwen3‑Omni‑Flash‑2025‑12‑01)。
- 定位:在 Qwen3‑Omni 基础上实现“原生端到端”全模态能力,目标是让文本、图像、音频、视频四种模态能够在同一模型中无缝交互,提供实时流式输出,提升多模态交互的自然度与效率。
2. 核心技术与架构
- Thinker‑Talker 双核架构
- 混合单模态与跨模态预训练:采用 AuT(Audio‑Text)预训练和多码本设计,使模型在每一种模态上都保持高性能,同时实现跨模态信息的高效融合。
- 实时流式响应:用户输入的文本、图像、音视频信息可同步转化为高质量文本与自然语音输出,支持边输入边生成,适用于对话、会议记录等实时场景。
3. 模型规模与多模态能力
| 项目 | 说明 |
|---|---|
| 参数规模 | 主模型约 300 B 参数(Qwen3‑Omni‑Flash‑30B‑A3B 为开源轻量版),兼顾大模型性能与部署灵活性 |
| 支持模态 | 文本、图片、音频、视频四模态的 输入 与 文本/语音输出(可选多声线) |
| 语言覆盖 | 119 种文本语言、19 种语音识别语言、10 种语音合成语言,支持多语言跨模态交互 |
| 流式模式 | modalities=["text","audio"] 等组合,可在同一次请求中返回文本与音频流 |
4. 性能与基准
- 音视频基准:在 36 项音视频评测中,取得 32 项开源模型最佳成绩,22 项达到 SOTA 水平,整体表现超过 GPT‑4o 与 Gemini‑2.5‑Flash。
- 单模态保持:文本与图像单模态性能保持稳定,未因多模态融合而出现性能下降,实现“全模态不降智”。
- 推理速度:双核架构与流式技术显著降低响应时延,适合实时对话与长时音视频理解(支持 30 分钟音频)。
5. 使用方式与生态
- 开放平台:已在 Hugging Face、ModelScope、DashScope 以及官方聊天页面
https://chat.qwen.ai上开放体验,用户可直接选择 “Qwen3‑Omni‑Flash” 并使用右下角的声波图标进行语音/视频交互。 - API 调用示例(Python):
client.chat.completions.create(
model="qwen3-omni-flash",
messages=[{"role":"user","content":"请介绍一下你自己"}],
modalities=["text","audio"],
audio={"voice":"Cherry","format":"wav"},
stream=True
)
- 工具链集成:支持系统提示自定义、人设风格设定、工具调用(如检索、计算)等高级功能,便于在企业内部系统、车载、智能眼镜等场景落地。
6. 典型应用场景
- 多模态客服:用户可上传图片、音频或短视频,模型即时返回文字答案并配合语音播报。
- 会议记录与摘要:长时音频(30 min)实时转写并生成摘要,同时提供自然语音回放。
- 内容创作:文字+图片+音频混合提示生成创意文案、配乐或视频脚本。
- 跨语言翻译:支持 119 种文本语言的输入,输出可选语音合成,实现多语言会议实时翻译。
- 智能助理:在车载或 AR 眼镜中,模型可同时识别语音指令、摄像头画面与环境音,完成导航、信息查询等任务。
7. 未来展望
- 模型迭代:阿里计划在后续版本中继续扩大参数规模、提升多模态感知深度,并进一步优化低功耗部署方案,以适配边缘设备。
- 生态扩展:通过开放 API 与开源模型,鼓励社区在教育、医疗、媒体等行业开发专属垂直解决方案,推动全模态 AI 的产业化落地。
总结:Qwen3‑Omni‑Flash 是阿里在 2025 年推出的原生全模态大模型,凭借 Thinker‑Talker 双核架构、300 B 参数规模以及对文本、图像、音频、视频四模态的统一处理能力,已经在多项音视频基准中取得领先成绩。其开放的使用渠道与灵活的 API 设计,使其能够快速嵌入各类业务场景,标志着全模态 AI 向实用化、商业化迈出了关键一步。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!