英伟达正式开源了全模态大语言模型 OmniVinci

AI资讯 2个月前硕雀

38 0 0

NVIDIA OmniVinci 全模态大模型概览

1. 背景与发布

2025 年 GTC 大会上，英伟达正式开源了全模态大语言模型 OmniVinci，标志着 AI 从单模态向“全模态”（Omni‑Modal）迈进。
该模型定位为能够同时理解 图像、视频、音频和文本 的统一模型，面向科研、工业和多媒体应用场景。

2. 模型规模与版本

主体模型为 9B 参数（约 90 亿）版本，已在多个基准测试中实现 SOTA 超越，并在仅使用 1/6 训练数据的情况下刷新成绩 19.05 分。
公开的模型权重可在 HuggingFace 上获取，文件名为 nvidia/omnivinci。

3. 核心技术创新

组件	功能	说明
OmniAlignNet	跨模态语义对齐	将视觉与音频嵌入映射到共享的“思维空间”，实现无障碍信息交流
Temporal Embedding Grouping (TEG)	时间关系捕获	对视频/音频序列进行相对时间重组，使模型理解事件先后顺序
Constrained Rotary Time Embedding (CRTE)	绝对时间感知	编码绝对时间信息，提升对时间流动的精确理解

这些模块共同构成 全模态对齐阶段，随后进入 LLM 推理层，实现图像、语音、文本的统一生成与推理。

4. 训练数据与规模

使用 约 0.2 万亿 Token（约 2400 万条多模态对话）进行训练，数据量仅为同类模型的 1/6，但效果更佳。
数据覆盖 图像、视频、音频、文本 四大模态，支持跨模态检索、描述、问答等任务。

5. 性能表现

在 DailyOmni、Video‑Audio、Vision‑Language 等多模态基准上，OmniVinci‑9B 超越 Qwen2.5‑Omni、LLaVA‑1.5 等竞争模型，提升幅度最高 19.05 分。
通过更高效的数据利用，实现 更低算力成本 下的强大多模态理解能力。

6. 开源方式与获取渠道

资源	链接
项目官网	https://nvlabs.github.io/OmniVinci/
GitHub 代码仓库	https://github.com/NVlabs/OmniVinci
HuggingFace 模型库	https://huggingface.co/nvidia/omnivinci
arXiv 论文（技术细节）	https://arxiv.org/abs/2510.15870

7. 许可证与使用注意

OmniVinci 采用 OneWay Noncommercial License，仅限研究/非商业用途，商业使用需另行授权。
开源代码和模型权重均已公开，社区可自由下载、微调和二次开发，但需遵守上述许可证条款。

总结：OmniVinci 是英伟达在 2025 年推出的首个全模态大语言模型，凭借创新的跨模态对齐网络、时间嵌入机制以及高效的数据利用，在多模态理解任务上实现了显著的性能突破。模型、代码、权重均已在 GitHub、HuggingFace 以及项目官网上公开，研究者可在遵守非商业许可证的前提下自由使用和扩展。

OmniVinci OmniVinci模型

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！