商汤开源多模态自主推理模型 SenseNova-MARS

AI资讯 1小时前 硕雀
2 0

商汤开源模型 SenseNova-MARS 详细介绍

SenseNova-MARS 是商汤科技(SenseTime)于 2026 年 1 月 30 日正式开源的多模态自主推理模型(Agentic Vision-Language Model, VLM)。该模型旨在解决传统多模态模型在实际业务场景中面临的“看不清细节、不会查背景、无法处理复杂多步骤任务”的痛点,被定位为首个支持 动态视觉推理 与 图文搜索深度融合 的自主智能体模型。

以下是该模型的详细解析:

1. 项目背景与定位

  • 核心定位:SenseNova-MARS 是一种 Agentic VLM(自主智能体视觉语言模型‍,不仅具备强大的感知能力,还能在多轮对话中主动规划解决步骤,调用外部工具(如图像裁剪、搜索引擎)来获取信息,从而实现“自主思考+多工具协作”的能力。
  • 突破难点:它专注于解决传统 VLM 在处理高分辨率图像细节和复杂业务逻辑时的局限性,能够主动识别图像中的微小要素(如赛车服的 Logo)、查询背景信息(如公司成立年份)并完成逻辑运算(如计算差值)。

2. 核心技术与架构

  • 多模态搜索与推理:模型支持在推理过程中自动触发图像搜索、文本搜索以及图像裁剪工具,显著提升了AI从“被动响应指令”到“主动规划步骤、调用工具解决复杂问题”的能力。
  • 训练方法:采用了 因材施教(Curriculum Learning)‍ 的训练策略,结合强化学习(RL)和 BN-GSPO(Balanced Neural Guided Search Policy Optimization)‍ 算法,确保模型在训练后期能够稳定地进行多步骤的逻辑推理与工具协作。
  • 版本规模:开源了两个版本,分别是 8B(参数量约 80 亿)‍ 和 32B(参数量约 320 亿)‍,满足不同算力用户的需求。

3. 主要功能与能力

  • 细节识别与图像裁剪
    • 能够自动聚焦并放大图片中占比不到 5% 的微小细节,例如精准识别赛车手衣服上的微小 Logo 或观众席上的小型标语,并进行裁剪分析。
  • 图像搜索与信息匹配
    • 在看到物体、人物或场景的瞬间,能够自动匹配相关信息。例如,识别出图片中的赛车手身份、查询冷门设备的型号或匹配行业峰会的企业标志。
  • 文本搜索与数据获取
    • 能够通过外部搜索工具抓取精准信息,如公司成立年份、人物出生年月或最新的行业数据,并进行后续的逻辑推理。
  • 多步骤闭环推理
    • 具备完成复杂任务的闭环能力,无需人工干预即可自动解决“细节识别 + 信息检索 + 逻辑推理”的复杂任务链条。

4. 性能表现与基准测试

  • SOTA 成绩:在多模态搜索与推理基准测试(HR-MMSearch Benchmark)中,SenseNova-MARS 综合得分达到了 69.74,超越了同一时间点的顶级闭源模型 Gemini-3-Pro(69.06)和 GPT-5.2(67.64),在同类开源模型中处于领先地位。

5. 开源情况与使用

  • 开源内容:模型的 代码、模型权重 以及 训练数据 均已开源,支持通过 Hugging Face 平台下载使用。
  • 部署与适配:由于提供了 8B 和 32B 两个不同规模的版本,开发者可以根据自己的算力资源进行选择,适配不同的业务场景。

6. 典型应用场景

基于其强大的多模态理解与工具协作能力,SenseNova-MARS 在以下领域有着广泛的应用前景:

  • 工业质检:自动识别高分辨率工业图像中的细微缺陷,提升质检效率。
  • 金融风控:快速检索并验证企业背景信息,辅助风控决策。
  • 传媒内容分析:分析赛事照片、企业峰会画面,提取关键信息并进行舆情分析。
  • 科研辅助:帮助研究人员快速检索文献和数据,辅助进行复杂的科学计算

7. 总结

SenseNova-MARS 的开源标志着商汤科技在多模态大模型领域的一次重要技术升级。它不仅在感知层面表现出色,更在‍“主动思考”‍ 和 ‍“工具协作”‍ 上具备了接近人类的解决问题能力,为产业级 AI 应用提供了一个强大的技术底座。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!