阿里发布全模态大模型Qwen3-Omni-Flash

AI资讯 2个月前硕雀

83 0 0

阿里全模态大模型 Qwen3‑Omni‑Flash 详细介绍

1. 背景与发布

发布时间：2025 年 12 月 9 日，阿里巴巴在云栖大会上同步发布了全新全模态模型 Qwen3‑Omni‑Flash（亦称 Qwen3‑Omni‑Flash‑2025‑12‑01）。
定位：在 Qwen3‑Omni 基础上实现“原生端到端”全模态能力，目标是让文本、图像、音频、视频四种模态能够在同一模型中无缝交互，提供实时流式输出，提升多模态交互的自然度与效率。

2. 核心技术与架构

Thinker‑Talker 双核架构
- Thinker 负责文本语义理解与生成；
- Talker 负责低延迟流式语音合成，实现“听‑说‑写”一体化交互。
混合单模态与跨模态预训练：采用 AuT（Audio‑Text）预训练和多码本设计，使模型在每一种模态上都保持高性能，同时实现跨模态信息的高效融合。
实时流式响应：用户输入的文本、图像、音视频信息可同步转化为高质量文本与自然语音输出，支持边输入边生成，适用于对话、会议记录等实时场景。

3. 模型规模与多模态能力

项目	说明
参数规模	主模型约 300 B 参数（Qwen3‑Omni‑Flash‑30B‑A3B 为开源轻量版），兼顾大模型性能与部署灵活性
支持模态	文本、图片、音频、视频四模态的输入与文本/语音输出（可选多声线）
语言覆盖	119 种文本语言、19 种语音识别语言、10 种语音合成语言，支持多语言跨模态交互
流式模式	`modalities=["text","audio"]` 等组合，可在同一次请求中返回文本与音频流

4. 性能与基准

音视频基准：在 36 项音视频评测中，取得 32 项开源模型最佳成绩，22 项达到 SOTA 水平，整体表现超过 GPT‑4o 与 Gemini‑2.5‑Flash。
单模态保持：文本与图像单模态性能保持稳定，未因多模态融合而出现性能下降，实现“全模态不降智”。
推理速度：双核架构与流式技术显著降低响应时延，适合实时对话与长时音视频理解（支持 30 分钟音频）。

5. 使用方式与生态

开放平台：已在 Hugging Face、ModelScope、DashScope 以及官方聊天页面 https://chat.qwen.ai 上开放体验，用户可直接选择 “Qwen3‑Omni‑Flash” 并使用右下角的声波图标进行语音/视频交互。
API 调用示例（Python）：

client.chat.completions.create(
    model="qwen3-omni-flash",
    messages=[{"role":"user","content":"请介绍一下你自己"}],
    modalities=["text","audio"],
    audio={"voice":"Cherry","format":"wav"},
    stream=True
)

工具链集成：支持系统提示自定义、人设风格设定、工具调用（如检索、计算）等高级功能，便于在企业内部系统、车载、智能眼镜等场景落地。

6. 典型应用场景

多模态客服：用户可上传图片、音频或短视频，模型即时返回文字答案并配合语音播报。
会议记录与摘要：长时音频（30 min）实时转写并生成摘要，同时提供自然语音回放。
内容创作：文字+图片+音频混合提示生成创意文案、配乐或视频脚本。
跨语言翻译：支持 119 种文本语言的输入，输出可选语音合成，实现多语言会议实时翻译。
智能助理：在车载或 AR 眼镜中，模型可同时识别语音指令、摄像头画面与环境音，完成导航、信息查询等任务。

7. 未来展望

模型迭代：阿里计划在后续版本中继续扩大参数规模、提升多模态感知深度，并进一步优化低功耗部署方案，以适配边缘设备。
生态扩展：通过开放 API 与开源模型，鼓励社区在教育、医疗、媒体等行业开发专属垂直解决方案，推动全模态 AI 的产业化落地。

总结：Qwen3‑Omni‑Flash 是阿里在 2025 年推出的原生全模态大模型，凭借 Thinker‑Talker 双核架构、300 B 参数规模以及对文本、图像、音频、视频四模态的统一处理能力，已经在多项音视频基准中取得领先成绩。其开放的使用渠道与灵活的 API 设计，使其能够快速嵌入各类业务场景，标志着全模态 AI 向实用化、商业化迈出了关键一步。

Qwen3-Omni-Flash

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！