腾讯混元 OpenSearch-VL 多模态深度搜索智能体方案详细介绍
腾讯混元联合加州大学洛杉矶分校(UCLA)等高校,于2026年5月6日正式发布了OpenSearch-VL开源多模态训练方案,这是首个面向前沿多模态深度搜索智能体的完整开源"全家桶"方案。
一、项目背景与意义
深度搜索已成为前沿多模态智能体的关键能力,使模型能够通过主动搜索、证据验证和多步骤推理来解决复杂问题。然而,顶级多模态搜索智能体一直难以复现,主要原因在于:
- 缺乏公开的高质量训练数据
- 轨迹合成流程不透明
- 训练配方细节未公开
OpenSearch-VL 通过完全开源的方式,为多模态深度搜索智能体的开放研究提供了完整解决方案。
二、核心技术架构
1. 多模态搜索智能体定义
多模态搜索智能体是指能够处理图像、文本等多种模态输入,并主动调用外部工具(如搜索引擎、图像处理工具)进行多步骤推理、证据验证与知识检索的智能体,专门针对知识密集型的复杂视觉问答任务。
2. 高质量数据管道
研究团队构建了专用数据构建管道,通过以下方式降低捷径和单步检索坍塌问题:
- 维基百科路径采样
- 模糊实体重写
- 来源锚点视觉定位
基于该管道,构建了两个训练数据集:
| 数据集名称 | 规模 | 用途 |
|---|---|---|
| SearchVL-SFT-36k | 3.6万条 | 监督微调(SFT) |
| SearchVL-RL-8k | 8千条 | 强化学习(RL) |
每轨迹平均包含6.3次工具调用,充分模拟真实的多步骤推理场景。
3. 多样化工具环境
工具环境涵盖了多种功能,使智能体能够结合主动感知与外部知识获取:
4. 多轮致命意识GRPO训练算法
研究团队提出了一种创新的训练算法,能够处理级联工具失败问题:
- 通过掩码失败后token来防止错误传播
- 通过单侧优势钳制保留失败前有用的推理过程
- 有效解决工具链中的级联失效问题
三、模型性能
OpenSearch-VL 推出的 OpenSearch-VL-30B-A3B 模型在多个基准测试上取得显著提升:
- 在七个基准测试上平均提升超过10个点
- 在多项任务上达到与商业专有模型相当的水平
- 消融实验验证了各组件的重要性
四、开源承诺
研究团队承诺将全部数据、代码和模型向开源社区开放,以支持多模态深度搜索智能体领域的开放研究。这包括:
- 完整的数据集(SearchVL-SFT-36k 和 SearchVL-RL-8k)
- 工具环境的源代码
- 训练算法的实现
- 预训练模型权重
五、技术路线图
┌─────────────────────────────────────────────────────────────┐
│ OpenSearch-VL 技术架构 │
├─────────────────────────────────────────────────────────────┤
│ 数据层:维基百科路径采样 + 模糊实体重写 + 视觉定位 │
│ ↓ │
│ 训练层:SFT(3.6万条) → RL(8千条) │
│ ↓ │
│ 工具层:文本搜索/图像搜索/OCR/裁剪/锐化/超分/透视校正 │
│ ↓ │
│ 算法层:多轮致命意识GRPO训练算法 │
│ ↓ │
│ 模型层:OpenSearch-VL-30B-A3B │
└─────────────────────────────────────────────────────────────┘
六、学术价值与产业意义
这项开源方案为人工智能研究领域带来了重要突破:
- 降低研究门槛:完整的训练配方和数据管道使更多研究团队能够复现和推进多模态搜索智能体技术
- 促进创新:开源生态将吸引更多开发者参与到工具优化、算法改进和场景拓展中
- 推动应用落地:为医疗诊断、科学文献分析、教育辅导等知识密集型领域提供更强大的AI助手
- 建立开放标准:通过公开数据构建和训练方法,为多模态搜索智能体领域建立开放研究标准
七、论文信息
- 论文标题:OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents
- 发布平台:arXiv:2605.05185
- 合作机构:腾讯混元(Tencent Hunyuan)、加州大学洛杉矶分校(UCLA)、香港中文大学
- 发布时间:2026年5月6日
OpenSearch-VL的发布标志着多模态深度搜索智能体领域向开放研究迈出了重要一步,为未来AI智能体的自主推理和工具调用能力奠定了坚实的基础。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!