1. 背景与发布
- 发布时间:2025 年 7 月,阿里巴巴集团在技术报告《Ovis‑U1 Technical Report》中正式公布了 Ovis‑Image 作为 Ovis 系列的首个统一图像生成模型。
- 定位:Ovis‑Image 是 Ovis 系列的图像生成子模型,旨在实现 文本到图像(Text‑to‑Image)、图像编辑 与 多模态理解 的统一能力,形成“一体化”多模态大模型的雏形。
2. 模型架构
| 组成部分 | 关键技术 | 说明 |
|---|---|---|
| 语言骨干 | Qwen‑3‑1.7B(阿里自研的大语言模型) | 为文本理解与指令生成提供强大的语言推理能力。 |
| 视觉编码器 | Aimv2‑large‑patch14‑448 + 2D Rotary Positional Embedding(RoPE) | 支持任意分辨率图像的特征提取,能够处理极端长宽比的高分辨率输入。 |
| 视觉解码器 | 基于 MMDiT(Mask‑guided Diffusion Transformer) + RoPE | 采用扩散模型的逆过程生成高质量图像,兼顾细节保真与全局一致性。 |
| 双向令牌精炼器 | 双向 Token Refiner | 在语言与视觉 token 之间进行交叉校正,提升文本‑图像对齐度。 |
| 统一训练框架 | 6‑阶段统一训练(视觉解码器预训练 → 适配器预训练 → 编码器对齐 → 理解学习 → 生成学习 → 生成微调) | 通过一次训练过程同时覆盖理解、生成、编辑三大任务,避免传统“分模型”方案的性能割裂。 |
- 参数规模:约 30 亿 参数,属于中等规模的统一模型,兼顾算力需求与生成质量。
- 多模态输入:支持 文本、单张/多张图像、视频帧 等多种模态的混合输入,能够在同一次推理中完成跨模态推理与生成。
3. 训练数据与方法
- 数据来源:融合了三类大规模多模态数据集
- 多模态理解数据(图文对、问答对)
- 文本‑到‑图像生成数据(大规模图像‑文本对)
- 图像‑+‑文本‑到‑图像生成数据(用于图像编辑与条件生成)
- 数据规模:整体超过 数千亿 条跨模态样本,覆盖自然场景、艺术创作、工业设计等多元领域。
- 训练策略:采用 统一多任务学习,在同一模型中交叉优化理解、生成、编辑目标,显著提升跨任务迁移能力。
4. 能力与应用场景
| 能力 | 典型示例 |
|---|---|
| 文本到图像生成 | 根据 “未来城市的夜景,霓虹灯映照的高楼” 生成逼真、细节丰富的图像;在 DPG‑Bench 与 GenEval 基准上分别取得 83.72 与 0.89 的高分。 |
| 图像编辑 | 输入原图 + “把天空换成日落” 指令,实现局部内容替换与风格迁移;在 ImgEdit‑Bench 与 GEdit‑Bench‑EN 上分别得到 4.00 与 6.42 的领先成绩。 |
| 多模态理解 | 通过文字提问图像内容、进行视觉问答或跨模态检索;在 OpenCompass 多模态学术基准中获得 69.6 分,超过同类模型 Ristretto‑3B、SAIL‑VL‑1.5‑2B。 |
| 高分辨率处理 | 支持 448 px 以上 的原始分辨率,适用于自动驾驶、医疗影像等对细节要求极高的行业场景。 |
5. 性能评估(关键指标)
| 基准 | 分数 / 说明 |
|---|---|
| OpenCompass 多模态学术基准 | 69.6(领先同类模型) |
| DPG‑Bench(文本‑到‑图像) | 83.72(行业前列) |
| GenEval(生成质量) | 0.89(接近人类水平) |
| ImgEdit‑Bench(图像编辑) | 4.00(显著优于基线) |
| GEdit‑Bench‑EN(英文编辑) | 6.42(领先) |
这些成绩表明 Ovis‑Image 在 生成质量、编辑灵活性、跨模态理解 三方面均实现了业界领先水平。
6. 开源与使用
- 项目链接:https://github.com/AIDC-AI/Ovis-Image
- 代码与模型:阿里已在 GitHub 开源 Ovis‑U1(即 Ovis‑Image)模型权重与推理代码,提供 Python API 与 Gradio 演示界面,便于科研与工业落地。
- 硬件需求:推荐 8 GB 以上显存的 GPU(如 A100、V100)进行推理;量化版本可在 4 GB 显存的显卡上运行,满足边缘部署需求。
- 生态兼容:模型遵循 HuggingFace Transformers 与 Diffusers 接口,可直接与现有的多模态工具链(如 LangChain、OpenAI‑compatible API)对接。
7. 未来展望
- 模型规模扩展:Ovis 团队计划在 2026 年前推出 Ovis‑U2(约 100 B 参数)版本,进一步提升生成细节与跨模态推理深度。
- 行业定制:已在 自动驾驶、医疗影像、数字内容创作 等垂直领域进行专项微调,预计将在阿里云 AI Marketplace 中提供行业专属模型服务。
- 跨模态统一:Ovis‑Image 将与 Ovis‑2 系列(1B‑34B) 形成统一的多模态模型家族,实现从轻量级移动端到大规模服务器的全链路覆盖。
总结:Ovis‑Image 作为阿里巴巴推出的首个统一图像生成模型,融合了大语言模型、扩散视觉解码器与双向令牌精炼器,凭借 30 B 参数、海量多模态训练数据以及统一训练框架,在文本‑到‑图像、图像编辑和多模态理解三大任务上均取得业界领先成绩。模型已开源,兼容主流 AI 框架,具备灵活的部署选项,为企业与科研提供了强大的生成式视觉能力。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!