什么是BrowseComp评估基准

AI解读 5小时前硕雀

3 0 0

BrowseComp（浏览竞赛）‍是一项由 OpenAI 开发并于 2025年4月10日 开源的评估基准，旨在测量 AI 智能体（尤其是具备浏览器功能的模型）在互联网上定位和整合难以查找、相互关联的信息的能力。

随着大型语言模型（LLM）的发展，传统的问答基准（如 SimpleQA）已难以区分具备快速浏览工具的模型。BrowseComp 的诞生旨在填补这一评估空白，专注于测试模型的 深度搜索、信息整合 和推理能力。

BrowseComp 的设计核心在于它的“非对称性”：

测试过程通常要求模型：

测试结果显示，尽管人类研究人员（数据师）仅能解决约 29% 的问题，但具备强大浏览功能的模型表现突出：

BrowseComp 的发布为 AI 研究社区提供了一个标准化的评估工具，推动了更高效、可靠的浏览策略发展，有助于构建更强大的 AI 研究助手。此外，后续版本如 BrowseComp-Plus 进一步提升了评估的公平性和透明度

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！