AIME25推理基准测试概述
AIME25(American Invitational Mathematics Examination 2025)是由美国数学协会(MAA)组织的2025年AIME(美国邀请数学竞赛)考试题目集合,已成为衡量大型语言模型(LLM)数学推理能力的核心基准之一。
与传统的语言模型评估(如MMLU、HellaSwag)不同,AIME25专注于高中乃至大学早期阶段的竞赛数学,对模型的逻辑推理、代数变形、几何构造以及长链计算能力提出了极高要求。
1. 基准来源与结构
- 来源:AIME25源自2025年美国邀请数学竞赛(AIME)真题。这是一项极具挑战性的全国性数学竞赛,被视为美国数学奥林匹克(USAMO)选拔的重要环节。
- 题目难度:属于竞赛数学范畴,难度远高于普通的中学数学考试。考题通常涉及深奥的数论技巧(如欧拉函数)、高等代数不等式及复杂的几何构造,解题过程往往需要多步推导。
- 结构划分:根据最新的学术论文(如NVIDIA Llama-Nemotron报告),AIME25基准测试通常分为两部分:
- AIME25-I:包含前15道题目。
- AIME25-II:包含后15道题目。
- 评估时通常使用完整的30题集进行综合测试。
2. 评估方式与指标
- 评估方式:大多数研究采用Pass@k(k次尝试通过率)指标。
- Pass@1:模型必须在第一次尝试时给出正确答案(通常是整数解),这是最严格的评估方式,强调模型的准确率和推理链条的完整性。
- 难度属性:AIME25被认为是LLM训练分布之外(Out-of-Distribution)的测试题集。由于竞赛题目具有高度的独创性和复杂性,模型很难通过“死记硬背”来应付,必须具备真实的数学思考能力。
3. 近期表现与应用
近年来,AIME25已成为评估新模型推理能力的“试金石”。以下是部分模型的表现数据,展示了该基准测试在行业中的影响力:
| 模型名称 | AIME25 评分 (Pass@1) | 备注 |
|---|---|---|
| Qwen3-4B-Thinking-2507 (端侧模型) | 81.3 | 超越了Claude 4 Opus和Gemini 2.5 Pro |
| Qwen3-235B-A22B | 70.3 | 大模型版本 |
| DeepSeek-Prover-V2 (671B) | 71.1 | 以逆天的推理能力加冕“数学王者” |
| Meta AI (Ouro系列) | 46.3 - 66.7 | 通过“慢-快”策略优化推理 |
| OpenAI o1 | 79.2 | 采用递归思维程序 (RTP) |
| 马斯克 Grok-4 | 满分 (100%) | 首个突破50%准确率的模型 |
趋势观察:从2024年的AIME24基准测试到2025年的AIME25,随着题库的更新和模型训练数据的变化,新模型在AIME25上的相对表现(超越旧模型)更具参考价值,因为它们更难与旧模型的训练数据重叠。
总结
AIME25推理基准测试是目前衡量LLM“数学推理”能力最权威、难度最高的基准之一。它不仅考察模型的计算能力,更深度挖掘其在抽象逻辑推理、复杂解题策略(如数形结合、构造性证明)上的真实水平。随着AI模型逐渐从“知识库”转向“思考机器”,AIME25及其衍生的Olympiad Bench等竞赛基准的权重将持续上升。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!