商汤开源多模态自主推理模型 SenseNova-MARS

AI资讯 2个月前硕雀

21 0 0

商汤开源模型 SenseNova-MARS 详细介绍

SenseNova-MARS 是商汤科技（SenseTime）于 2026 年 1 月 30 日正式开源的多模态自主推理模型（Agentic Vision-Language Model, VLM）。该模型旨在解决传统多模态模型在实际业务场景中面临的“看不清细节、不会查背景、无法处理复杂多步骤任务”的痛点，被定位为首个支持 动态视觉推理 与 图文搜索深度融合 的自主智能体模型。

以下是该模型的详细解析：

1. 项目背景与定位

核心定位：SenseNova-MARS 是一种 Agentic VLM（自主智能体视觉语言模型）‍，不仅具备强大的感知能力，还能在多轮对话中主动规划解决步骤，调用外部工具（如图像裁剪、搜索引擎）来获取信息，从而实现“自主思考+多工具协作”的能力。
突破难点：它专注于解决传统 VLM 在处理高分辨率图像细节和复杂业务逻辑时的局限性，能够主动识别图像中的微小要素（如赛车服的 Logo）、查询背景信息（如公司成立年份）并完成逻辑运算（如计算差值）。

2. 核心技术与架构

多模态搜索与推理：模型支持在推理过程中自动触发图像搜索、文本搜索以及图像裁剪工具，显著提升了AI从“被动响应指令”到“主动规划步骤、调用工具解决复杂问题”的能力。
训练方法：采用了 因材施教（Curriculum Learning）‍ 的训练策略，结合强化学习（RL）和 BN-GSPO（Balanced Neural Guided Search Policy Optimization）‍ 算法，确保模型在训练后期能够稳定地进行多步骤的逻辑推理与工具协作。
版本规模：开源了两个版本，分别是 8B（参数量约 80 亿）‍ 和 32B（参数量约 320 亿）‍，满足不同算力用户的需求。

3. 主要功能与能力

细节识别与图像裁剪：
- 能够自动聚焦并放大图片中占比不到 5% 的微小细节，例如精准识别赛车手衣服上的微小 Logo 或观众席上的小型标语，并进行裁剪分析。
图像搜索与信息匹配：
- 在看到物体、人物或场景的瞬间，能够自动匹配相关信息。例如，识别出图片中的赛车手身份、查询冷门设备的型号或匹配行业峰会的企业标志。
文本搜索与数据获取：
- 能够通过外部搜索工具抓取精准信息，如公司成立年份、人物出生年月或最新的行业数据，并进行后续的逻辑推理。
多步骤闭环推理：
- 具备完成复杂任务的闭环能力，无需人工干预即可自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂任务链条。

4. 性能表现与基准测试

SOTA 成绩：在多模态搜索与推理基准测试（HR-MMSearch Benchmark）中，SenseNova-MARS 综合得分达到了 69.74，超越了同一时间点的顶级闭源模型 Gemini-3-Pro（69.06）和 GPT-5.2（67.64），在同类开源模型中处于领先地位。

5. 开源情况与使用

开源内容：模型的 代码、模型权重 以及 训练数据 均已开源，支持通过 Hugging Face 平台下载使用。
部署与适配：由于提供了 8B 和 32B 两个不同规模的版本，开发者可以根据自己的算力资源进行选择，适配不同的业务场景。

6. 典型应用场景

基于其强大的多模态理解与工具协作能力，SenseNova-MARS 在以下领域有着广泛的应用前景：

工业质检：自动识别高分辨率工业图像中的细微缺陷，提升质检效率。
金融风控：快速检索并验证企业背景信息，辅助风控决策。
传媒内容分析：分析赛事照片、企业峰会画面，提取关键信息并进行舆情分析。
科研辅助：帮助研究人员快速检索文献和数据，辅助进行复杂的科学计算。

7. 总结

SenseNova-MARS 的开源标志着商汤科技在多模态大模型领域的一次重要技术升级。它不仅在感知层面表现出色，更在‍“主动思考”‍ 和 ‍“工具协作”‍ 上具备了接近人类的解决问题能力，为产业级 AI 应用提供了一个强大的技术底座。

SenseNova-MARS

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！