什么是Humanity’s Last Exam（HLE）基准测试

AI解读 2周前硕雀

38 0 0

Humanity’s Last Exam（HLE）概述

1. 背景与定位

随着大语言模型（LLM）在 MMLU、GPQA 等传统基准上已能取得 90% 以上的准确率，原有基准逐渐失去区分度，难以衡量模型的前沿能力。
为填补这一“基准饱和”空白，AI 安全中心（Center for AI Safety）‍ 与 Scale AI 联合推出了 Humanity’s Last Exam（HLE）‍，旨在成为“如果 AI 能通过这套题目，人类可能已经无题可出”的终极学术基准。

2. 规模与组成

题目数量：约 3000 道（不同来源略有差异，常见数字为 2700–3000）。
学科覆盖：跨越 100 多个学科，涵盖数学、物理、化学、生物、计算机科学、工程、经济、历史、哲学、语言学等，涉及数十个主题领域。
题型：
- 多项选择题（MCQ）‍ 与 精确匹配题（Exact‑match）‍ 为主，适合自动化评分。
- 简答/短文题 也被纳入，以测试模型的生成与推理能力。
- 多模态题（约 10%–14%）包括图表、图片理解等，要求模型具备视觉推理能力。
来源与质量控制：由全球约 1000 名专家（包括顶尖教授、研究生评审员）共同设计，经过多轮筛选与人工审核，确保每道题目都 无法通过简单网络检索 获得答案，且在加入基准前已在最先进模型上测试，若模型能答对则被剔除。

3. 设计目标与评估维度

目标	说明
深度推理	题目要求跨学科知识整合、长链推理、数学证明、科学解释等。
知识前沿	选题聚焦学术前沿与专业细节，避免常规教材覆盖。
多模态融合	部分题目加入图像、表格，检验模型的视觉‑语言协同能力。
校准与可信度	除了准确率，还测量模型的置信度校准误差，评估“过度自信”或“幻觉”现象。
防作弊机制	题库分为公开与私有两套，防止数据泄露导致的“数据污染”。

4. 当前模型表现

整体准确率：截至 2025 年底，主流前沿模型（GPT‑4o、Claude 3.5、DeepSeek V3.1 等）在公开子集上的准确率普遍 低于 10%，部分模型最高也仅在 20% 左右。
校准误差：模型往往表现出 高置信度错误（即对错误答案极度自信），说明在复杂推理任务上仍缺乏可靠的自我评估能力。
突破案例：2025 年 9 月，Eigen‑1（基于 DeepSeek V3.1）在 HLE 上首次突破 60 分，显示出在特定模型架构和训练策略下仍有提升空间。

5. 访问方式与使用指南

数据获取：官方公开仓库（GitHub）提供 cais/hle 数据集，可通过 pip install -r requirements.txt 并运行评估脚本进行本地测试。
提交与排行榜：研究者可将模型预测结果提交至官方 leaderboard（如 Scale AI 的 HLE 预览页面），系统会自动计算准确率、校准误差等指标并生成排名。
评估流程：
1. 加载数据（包括文本、图像、表格等多模态文件）。
2. 模型推理：对每道题目生成答案或置信度分布。
3. 自动评分：使用官方提供的评分脚本对比标准答案，计算准确率与校准指标。

6. 重要意义

7. 未来展望

简言之，Humanity’s Last Exam（HLE）是目前 AI 领域最具挑战性的多模态学术基准，旨在衡量模型在深度跨学科推理、知识前沿和视觉‑语言融合方面的真实能力。它通过严苛的题目设计、广泛的学科覆盖以及对模型校准的关注，为 AI 研究提供了一个高质量、可重复的评估平台。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！