什么是MathVision多模态数学推理基准数据集

AI解读 4小时前 硕雀
5 0

MathVision(MATH‑Vision)多模态数学推理基准数据集概览


1. 背景与动机

随着大规模多模态模型(LMM)在视觉理解和语言生成方面取得突破,评估它们在带有视觉上下文的数学推理能力成为新的瓶颈。已有的文本‑仅数学基准(如 MATH、GSM‑8K)缺少图像信息,而传统的视觉问答基准又不涉及深层数学推理。为填补这一空白,香港中文大学等机构提出了 MATH‑Vision(MathVision)数据集,专门衡量 LMM 在真实竞赛题目中的多模态数学推理水平。


2. 数据集规模与结构

项目 说明
样本数量 3 040 条高质量数学题目
来源 19 个国际/国内数学竞赛(如 IMO、USAMO 等)精选题目
学科覆盖 16 个数学子领域,包括代数、解析几何、组合几何、统计、拓扑等
难度层级 5 级难度(从易到极难)
模态 每题配有 图像(手绘图、几何图形、表格等)和 文本(题干、选项)
任务形式 多选题(提供 4–5 个选项)或自由形式答案,要求模型直接输出答案或选项编号

3. 数据构建流程

  1. 题目筛选:从公开的数学竞赛题库中抽取含图像的题目,剔除纯文字或已公开的标准化题目。
  2. 图像收集:对原始题目中的图形进行高分辨率扫描或重新绘制,确保视觉信息完整。
  3. 质量控制:10 名专业注释员进行四轮审校,确保题目描述、图像对应关系、答案唯一性。
  4. 标签与划分:依据学科和难度为每条样本打标签,形成细粒度的分类体系,便于错误分析和模型对齐。

4. 任务设置与评估指标

  • 输入:图像 + 题干文本(可选选项)。
  • 输出:直接给出答案(数值或选项字母)。
  • 评价准确率Accuracy‍ 为主要指标;在细粒度分析时,还会报告各学科、难度层级的子准确率,以帮助定位模型薄弱环节。

5. 基准模型表现(截至 2025 年)

模型 在 MathVision 上的准确率
GPT‑4V 23.98 %(官方报告)
Claude 3.5 Sonnet 约 24 %(同类实验)
Qwen2‑VL(开源) 25.9 %(最新开源基准)
人类 约 70 %(人工解答上限)

这些结果显示,当前最先进的 LMM 仍距离人类水平有显著差距,尤其在高难度和几何类子任务上表现尤为薄弱。


6. 获取方式与使用指南

  • 代码仓库GitHub 项目页面提供数据下载、评估脚本以及基准划分文件(https://github.com/mathvision-cuhk/MATH-V )。
  • 模型中心:数据已同步至 Hugging Face 数据集库,用户可直接通过 datasets.load_dataset("mathvision") 调用。
  • 评估脚本:官方提供的 evaluate.py 支持多模型接口(OpenAI、Claude、开源 LMM),并自动输出整体与细分准确率。

7. 研究价值与未来方向

  1. 多模态推理基准:首次在真实竞赛题目层面结合视觉信息与数学推理,为 LMM 的能力评估提供了更具挑战性的“金标准”。
  2. 错误分析:细粒度标签帮助研究者定位模型在视觉识别错误、推理链路错误、知识缺失等方面的具体短板。
  3. 跨任务迁移:由于涵盖多学科和多难度,MathVision 可用于检验模型在跨学科迁移学习少样本适应的能力。
  4. 数据扩展:后续工作计划加入多语言(中文、日文)题目、动态图表以及交互式几何场景,以进一步逼近真实教育和工程应用场景。

小结
MathVision(MATH‑Vision)是目前最系统、最具规模的多模态数学推理基准,包含 3 040 条来源于真实竞赛的图文题目,覆盖 16 个数学学科、5 个难度层级。它为评估和推动大规模多模态模型在数学推理领域的突破提供了重要平台,已被多家前沿模型用于基准测试,结果表明仍有巨大的提升空间。研究者可通过官方 GitHub 或 Hugging Face 直接获取数据并使用提供的评估脚本开展实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!