商汤开源模型 SenseNova-MARS 详细介绍
SenseNova-MARS 是商汤科技(SenseTime)于 2026 年 1 月 30 日正式开源的多模态自主推理模型(Agentic Vision-Language Model, VLM)。该模型旨在解决传统多模态模型在实际业务场景中面临的“看不清细节、不会查背景、无法处理复杂多步骤任务”的痛点,被定位为首个支持 动态视觉推理 与 图文搜索深度融合 的自主智能体模型。
以下是该模型的详细解析:
1. 项目背景与定位
- 核心定位:SenseNova-MARS 是一种 Agentic VLM(自主智能体视觉语言模型),不仅具备强大的感知能力,还能在多轮对话中主动规划解决步骤,调用外部工具(如图像裁剪、搜索引擎)来获取信息,从而实现“自主思考+多工具协作”的能力。
- 突破难点:它专注于解决传统 VLM 在处理高分辨率图像细节和复杂业务逻辑时的局限性,能够主动识别图像中的微小要素(如赛车服的 Logo)、查询背景信息(如公司成立年份)并完成逻辑运算(如计算差值)。
2. 核心技术与架构
- 多模态搜索与推理:模型支持在推理过程中自动触发图像搜索、文本搜索以及图像裁剪工具,显著提升了AI从“被动响应指令”到“主动规划步骤、调用工具解决复杂问题”的能力。
- 训练方法:采用了 因材施教(Curriculum Learning) 的训练策略,结合强化学习(RL)和 BN-GSPO(Balanced Neural Guided Search Policy Optimization) 算法,确保模型在训练后期能够稳定地进行多步骤的逻辑推理与工具协作。
- 版本规模:开源了两个版本,分别是 8B(参数量约 80 亿) 和 32B(参数量约 320 亿),满足不同算力用户的需求。
3. 主要功能与能力
- 细节识别与图像裁剪:
- 能够自动聚焦并放大图片中占比不到 5% 的微小细节,例如精准识别赛车手衣服上的微小 Logo 或观众席上的小型标语,并进行裁剪分析。
- 图像搜索与信息匹配:
- 在看到物体、人物或场景的瞬间,能够自动匹配相关信息。例如,识别出图片中的赛车手身份、查询冷门设备的型号或匹配行业峰会的企业标志。
- 文本搜索与数据获取:
- 能够通过外部搜索工具抓取精准信息,如公司成立年份、人物出生年月或最新的行业数据,并进行后续的逻辑推理。
- 多步骤闭环推理:
- 具备完成复杂任务的闭环能力,无需人工干预即可自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂任务链条。
4. 性能表现与基准测试
- SOTA 成绩:在多模态搜索与推理基准测试(HR-MMSearch Benchmark)中,SenseNova-MARS 综合得分达到了 69.74,超越了同一时间点的顶级闭源模型 Gemini-3-Pro(69.06)和 GPT-5.2(67.64),在同类开源模型中处于领先地位。
5. 开源情况与使用
- 开源内容:模型的 代码、模型权重 以及 训练数据 均已开源,支持通过 Hugging Face 平台下载使用。
- 部署与适配:由于提供了 8B 和 32B 两个不同规模的版本,开发者可以根据自己的算力资源进行选择,适配不同的业务场景。
6. 典型应用场景
基于其强大的多模态理解与工具协作能力,SenseNova-MARS 在以下领域有着广泛的应用前景:
- 工业质检:自动识别高分辨率工业图像中的细微缺陷,提升质检效率。
- 金融风控:快速检索并验证企业背景信息,辅助风控决策。
- 传媒内容分析:分析赛事照片、企业峰会画面,提取关键信息并进行舆情分析。
- 科研辅助:帮助研究人员快速检索文献和数据,辅助进行复杂的科学计算。
7. 总结
SenseNova-MARS 的开源标志着商汤科技在多模态大模型领域的一次重要技术升级。它不仅在感知层面表现出色,更在“主动思考” 和 “工具协作” 上具备了接近人类的解决问题能力,为产业级 AI 应用提供了一个强大的技术底座。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!