什么是MMLU基准

AI解读 4小时前硕雀

3 0 0

MMLU 是由美国加州大学伯克利分校的研究团队在 2020 年提出的多任务语言理解评测基准，旨在衡量大语言模型在广泛知识领域的综合理解与推理能力。它通过统一的评测框架，对模型在 57 个学科（包括 STEM、人文、社会科学等）上的表现进行系统化测量。

特征	说明
任务覆盖	57 个主题，涉及数学、物理、化学、计算机科学、历史、法律、医学等多个领域
题目形式	多项选择题，共计约 15 908 道，难度从小学到专业研究水平不等
评估设置	- 零样本（MMLU‑ZS）‍：模型在无任何任务特定训练数据的情况下直接作答 - 少样本（MMLU‑FS）‍：提供少量示例后进行评估
评价指标	主要使用准确率（Accuracy），并可进一步分析模型在不同学科的强弱点
数据来源	题目来源于公开的考试、教材、竞赛等，均已标准化为统一的 JSON/TSV 格式

资源	链接	说明
官方数据集（GitHub）	https://github.com/hendrycks/test	包含全部 57 项任务的原始题目与答案
Papers with Code 评测页面	https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu	汇总最新模型在 MMLU 上的成绩与代码实现
详细介绍与使用指南（中文）	https://www.heishu.net/sites/23756.html	对基准的背景、结构与使用方法进行中文阐述
维基百科条目（英文）	https://en.wikipedia.org/wiki/MMLU	提供基准的历史、技术细节与引用文献
评测排行榜（中文）	https://16map.com/sites/139438.html	展示国内外模型在 MMLU 上的对比结果

MMLU 通过大规模、多学科的多项选择题，提供了衡量大语言模型“通用知识+推理能力”的统一标准。它已成为学术界与工业界评估 LLM 的重要基准，帮助推动模型向更广泛、更深入的语言理解方向发展。若想深入实验或对比最新模型，建议直接访问上述链接获取最新数据与实现代码。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！