什么是AIME25推理基准测试

AI解读 1个月前 硕雀
32 0

AIME25推理基准测试概述

AIME25(American Invitational Mathematics Examination 2025)是由美国数学协会(MAA)组织的2025年AIME(美国邀请数学竞赛)考试题目集合,已成为衡量大型语言模型(LLM)数学推理能力的核心基准之一。

与传统的语言模型评估(如MMLU、HellaSwag)不同,AIME25专注于高中乃至大学早期阶段的竞赛数学,对模型的逻辑推理、代数变形、几何构造以及长链计算能力提出了极高要求。


1. 基准来源与结构

  • 来源:AIME25源自2025年美国邀请数学竞赛(AIME)真题。这是一项极具挑战性的全国性数学竞赛,被视为美国数学奥林匹克(USAMO)选拔的重要环节。
  • 题目难度:属于竞赛数学范畴,难度远高于普通的中学数学考试。考题通常涉及深奥的数论技巧(如欧拉函数)、高等代数不等式及复杂的几何构造,解题过程往往需要多步推导。
  • 结构划分:根据最新的学术论文(如NVIDIA Llama-Nemotron报告),AIME25基准测试通常分为两部分:
    • AIME25-I:包含前15道题目。
    • AIME25-II:包含后15道题目。
    • 评估时通常使用完整的30题集进行综合测试。

2. 评估方式与指标

  • 评估方式:大多数研究采用Pass@k(k次尝试通过率)指标。
    • Pass@1:模型必须在第一次尝试时给出正确答案(通常是整数解),这是最严格的评估方式,强调模型的准确率推理链条的完整性
  • 难度属性:AIME25被认为是LLM训练分布之外(Out-of-Distribution)的测试题集。由于竞赛题目具有高度的独创性和复杂性,模型很难通过“死记硬背”来应付,必须具备真实的数学思考能力

3. 近期表现与应用

近年来,AIME25已成为评估新模型推理能力的“试金石”。以下是部分模型的表现数据,展示了该基准测试在行业中的影响力:

模型名称 AIME25 评分 (Pass@1) 备注
Qwen3-4B-Thinking-2507 (端侧模型) 81.3 超越了Claude 4 Opus和Gemini 2.5 Pro
Qwen3-235B-A22B 70.3 大模型版本
DeepSeek-Prover-V2 (671B) 71.1 以逆天的推理能力加冕“数学王者”
Meta AI (Ouro系列) 46.3 - 66.7 通过“慢-快”策略优化推理
OpenAI o1 79.2 采用递归思维程序 (RTP)
马斯克 Grok-4 满分 (100%) 首个突破50%准确率的模型

趋势观察:从2024年的AIME24基准测试到2025年的AIME25,随着题库的更新和模型训练数据的变化,新模型在AIME25上的相对表现(超越旧模型)更具参考价值,因为它们更难与旧模型的训练数据重叠。


总结

AIME25推理基准测试是目前衡量LLM“数学推理”能力最权威、难度最高的基准之一。它不仅考察模型的计算能力,更深度挖掘其在抽象逻辑推理复杂解题策略(如数形结合、构造性证明)上的真实水平。随着AI模型逐渐从“知识库”转向“思考机器”,AIME25及其衍生的Olympiad Bench等竞赛基准的权重将持续上升。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!