什么是Humanity’s Last Exam(HLE)基准测试

Humanity’s Last Exam(HLE)概述

1. 背景与定位

  • 随着大语言模型LLM)在 MMLU、GPQA 等传统基准上已能取得 90% 以上的准确率,原有基准逐渐失去区分度,难以衡量模型的前沿能力。
  • 为填补这一“基准饱和”空白,AI 安全中心(Center for AI Safety)‍ 与 Scale AI 联合推出了 Humanity’s Last Exam(HLE)‍,旨在成为“如果 AI 能通过这套题目,人类可能已经无题可出”的终极学术基准。

2. 规模与组成

  • 题目数量:约 3000 道(不同来源略有差异,常见数字为 2700–3000)。
  • 学科覆盖:跨越 100 多个学科,涵盖数学、物理、化学、生物、计算机科学、工程、经济、历史、哲学、语言学等,涉及数十个主题领域。
  • 题型
    • 多项选择题(MCQ)‍ 与 精确匹配题(Exact‑match)‍ 为主,适合自动化评分。
    • 简答/短文题 也被纳入,以测试模型的生成与推理能力。
    • 多模态题(约 10%–14%)包括图表、图片理解等,要求模型具备视觉推理能力。
  • 来源与质量控制:由全球约 1000 名专家(包括顶尖教授、研究生评审员)共同设计,经过多轮筛选与人工审核,确保每道题目都 无法通过简单网络检索 获得答案,且在加入基准前已在最先进模型上测试,若模型能答对则被剔除。

3. 设计目标与评估维度

目标 说明
深度推理 题目要求跨学科知识整合、长链推理、数学证明、科学解释等。
知识前沿 选题聚焦学术前沿与专业细节,避免常规教材覆盖。
多模态融合 部分题目加入图像、表格,检验模型的视觉‑语言协同能力。
校准与可信度 除了准确率,还测量模型的置信度校准误差,评估“过度自信”或“幻觉”现象。
防作弊机制 题库分为公开与私有两套,防止数据泄露导致的“数据污染”。

4. 当前模型表现

  • 整体准确率:截至 2025 年底,主流前沿模型(GPT‑4o、Claude 3.5、DeepSeek V3.1 等)在公开子集上的准确率普遍 低于 10%,部分模型最高也仅在 20% 左右。
  • 校准误差:模型往往表现出 高置信度错误(即对错误答案极度自信),说明在复杂推理任务上仍缺乏可靠的自我评估能力。
  • 突破案例:2025 年 9 月,Eigen‑1(基于 DeepSeek V3.1)在 HLE 上首次突破 60 分,显示出在特定模型架构和训练策略下仍有提升空间。

5. 访问方式与使用指南

  • 数据获取:官方公开仓库(GitHub)提供 cais/hle 数据集,可通过 pip install -r requirements.txt 并运行评估脚本进行本地测试。
  • 提交与排行榜:研究者可将模型预测结果提交至官方 leaderboard(如 Scale AI 的 HLE 预览页面),系统会自动计算准确率、校准误差等指标并生成排名。
  • 评估流程
    1. 加载数据(包括文本、图像、表格等多模态文件)。
    2. 模型推理:对每道题目生成答案或置信度分布。
    3. 自动评分:使用官方提供的评分脚本对比标准答案,计算准确率与校准指标。

6. 重要意义

  • 突破天花板:HLE 为 AI 评估提供了比 MMLU、GPQA 更高的难度天花板,帮助研究社区识别模型在真正“专家级”任务上的瓶颈。
  • 安全与政策参考:由于题目聚焦学术前沿且难度极高,HLE 成为 AI 安全研究、政策制定者评估模型潜在风险与可靠性的关键工具。
  • 推动多模态研究:加入视觉推理题目,促使模型在语言与视觉融合方面取得突破,推动更通用的 AI 系统发展。

7. 未来展望

  • 随着模型在 HLE 上的表现逐步提升,基准本身也在迭代(如增加更高难度的私有子集、引入更丰富的跨学科任务),以保持其“最后考试”的挑战性。
  • 社区期待通过更高效的 工具‑搜索‑浏览 框架(如 SLIM)降低长时序推理成本,从而在 HLE 这类高复杂度任务上取得更好表现。

简言之,Humanity’s Last Exam(HLE)是目前 AI 领域最具挑战性的多模态学术基准,旨在衡量模型在深度跨学科推理、知识前沿和视觉‑语言融合方面的真实能力。它通过严苛的题目设计、广泛的学科覆盖以及对模型校准的关注,为 AI 研究提供了一个高质量、可重复的评估平台。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!