英伟达正式开源了全模态大语言模型 OmniVinci

AI资讯 23小时前 硕雀
2 0

NVIDIA OmniVinci 全模态大模型概览


1. 背景与发布

  • 2025 年 GTC 大会上,英伟达正式开源了全模态大语言模型 OmniVinci,标志着 AI 从单模态向“全模态”(Omni‑Modal)迈进。
  • 该模型定位为能够同时理解 图像、视频、音频和文本 的统一模型,面向科研、工业和多媒体应用场景。

2. 模型规模与版本

  • 主体模型为 9B 参数(约 90 亿)版本,已在多个基准测试中实现 SOTA 超越,并在仅使用 1/6 训练数据的情况下刷新成绩 19.05 分。
  • 公开的模型权重可在 HuggingFace 上获取,文件名为 nvidia/omnivinci

3. 核心技术创新

组件 功能 说明
OmniAlignNet 跨模态语义对齐 将视觉与音频嵌入映射到共享的“思维空间”,实现无障碍信息交流
Temporal Embedding Grouping (TEG) 时间关系捕获 对视频/音频序列进行相对时间重组,使模型理解事件先后顺序
Constrained Rotary Time Embedding (CRTE) 绝对时间感知 编码绝对时间信息,提升对时间流动的精确理解

这些模块共同构成 全模态对齐阶段,随后进入 LLM 推理层,实现图像、语音、文本的统一生成与推理。

4. 训练数据与规模

  • 使用 约 0.2 万亿 Token(约 2400 万条多模态对话)进行训练,数据量仅为同类模型的 1/6,但效果更佳。
  • 数据覆盖 图像、视频、音频、文本 四大模态,支持跨模态检索、描述、问答等任务。

5. 性能表现

  • 在 DailyOmniVideo‑AudioVision‑Language 等多模态基准上,OmniVinci‑9B 超越 Qwen2.5‑Omni、LLaVA‑1.5 等竞争模型,提升幅度最高 19.05 分
  • 通过更高效的数据利用,实现 更低算力成本 下的强大多模态理解能力。

6. 开源方式与获取渠道

资源 链接
项目官网 https://nvlabs.github.io/OmniVinci/
GitHub 代码仓库 https://github.com/NVlabs/OmniVinci
HuggingFace 模型库 https://huggingface.co/nvidia/omnivinci
arXiv 论文(技术细节) https://arxiv.org/abs/2510.15870

7. 许可证与使用注意

  • OmniVinci 采用 OneWay Noncommercial License,仅限研究/非商业用途,商业使用需另行授权。
  • 开源代码和模型权重均已公开,社区可自由下载、微调和二次开发,但需遵守上述许可证条款。

总结:OmniVinci 是英伟达在 2025 年推出的首个全模态大语言模型,凭借创新的跨模态对齐网络、时间嵌入机制以及高效的数据利用,在多模态理解任务上实现了显著的性能突破。模型、代码、权重均已在 GitHub、HuggingFace 以及项目官网上公开,研究者可在遵守非商业许可证的前提下自由使用和扩展。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!