1. 背景与发布
- 2025 年 GTC 大会上,英伟达正式开源了全模态大语言模型 OmniVinci,标志着 AI 从单模态向“全模态”(Omni‑Modal)迈进。
- 该模型定位为能够同时理解 图像、视频、音频和文本 的统一模型,面向科研、工业和多媒体应用场景。
2. 模型规模与版本
- 主体模型为 9B 参数(约 90 亿)版本,已在多个基准测试中实现 SOTA 超越,并在仅使用 1/6 训练数据的情况下刷新成绩 19.05 分。
- 公开的模型权重可在 HuggingFace 上获取,文件名为
nvidia/omnivinci。
3. 核心技术创新
| 组件 | 功能 | 说明 |
|---|---|---|
| OmniAlignNet | 跨模态语义对齐 | 将视觉与音频嵌入映射到共享的“思维空间”,实现无障碍信息交流 |
| Temporal Embedding Grouping (TEG) | 时间关系捕获 | 对视频/音频序列进行相对时间重组,使模型理解事件先后顺序 |
| Constrained Rotary Time Embedding (CRTE) | 绝对时间感知 | 编码绝对时间信息,提升对时间流动的精确理解 |
这些模块共同构成 全模态对齐阶段,随后进入 LLM 推理层,实现图像、语音、文本的统一生成与推理。
4. 训练数据与规模
- 使用 约 0.2 万亿 Token(约 2400 万条多模态对话)进行训练,数据量仅为同类模型的 1/6,但效果更佳。
- 数据覆盖 图像、视频、音频、文本 四大模态,支持跨模态检索、描述、问答等任务。
5. 性能表现
- 在 DailyOmni、Video‑Audio、Vision‑Language 等多模态基准上,OmniVinci‑9B 超越 Qwen2.5‑Omni、LLaVA‑1.5 等竞争模型,提升幅度最高 19.05 分。
- 通过更高效的数据利用,实现 更低算力成本 下的强大多模态理解能力。
6. 开源方式与获取渠道
| 资源 | 链接 |
|---|---|
| 项目官网 | https://nvlabs.github.io/OmniVinci/ |
| GitHub 代码仓库 | https://github.com/NVlabs/OmniVinci |
| HuggingFace 模型库 | https://huggingface.co/nvidia/omnivinci |
| arXiv 论文(技术细节) | https://arxiv.org/abs/2510.15870 |
7. 许可证与使用注意
- OmniVinci 采用 OneWay Noncommercial License,仅限研究/非商业用途,商业使用需另行授权。
- 开源代码和模型权重均已公开,社区可自由下载、微调和二次开发,但需遵守上述许可证条款。
总结:OmniVinci 是英伟达在 2025 年推出的首个全模态大语言模型,凭借创新的跨模态对齐网络、时间嵌入机制以及高效的数据利用,在多模态理解任务上实现了显著的性能突破。模型、代码、权重均已在 GitHub、HuggingFace 以及项目官网上公开,研究者可在遵守非商业许可证的前提下自由使用和扩展。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!