BrowseComp(浏览竞赛)是一项由 OpenAI 开发并于 2025年4月10日 开源的评估基准,旨在测量 AI 智能体(尤其是具备浏览器功能的模型)在互联网上定位和整合难以查找、相互关联的信息的能力。
1. 核心目标与意义
随着大型语言模型(LLM)的发展,传统的问答基准(如 SimpleQA)已难以区分具备快速浏览工具的模型。BrowseComp 的诞生旨在填补这一评估空白,专注于测试模型的 深度搜索、信息整合 和 推理 能力。
2. 设计理念:难于查找,易于验证
BrowseComp 的设计核心在于它的“非对称性”:
3. 数据集构成
- 规模:包含 1266 个精心构建的高难度问题。
- 领域:跨越多个领域,包括科学、历史、娱乐等。
- 构建过程:数据师通过三步确保问题难度:
- 验证现有模型无法解决。
- 确保答案不在搜索结果首页。
- 确保问题足够困难,需多轮迭代搜索。
4. 评估机制
测试过程通常要求模型:
- 自主搜索:不依赖预设的搜索引擎 API,而是通过真实的浏览器交互。
- 信息整合:从多个来源提取并综合信息。
- 策略调整:根据遇到的情况动态调整搜索策略。
5. 测试结果与现状
测试结果显示,尽管人类研究人员(数据师)仅能解决约 29% 的问题,但具备强大浏览功能的模型表现突出:
6. 影响与后续
BrowseComp 的发布为 AI 研究社区提供了一个标准化的评估工具,推动了更高效、可靠的浏览策略发展,有助于构建更强大的 AI 研究助手。此外,后续版本如 BrowseComp-Plus 进一步提升了评估的公平性和透明度
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!