MMAR 基准概览
| 项目 | 内容 | 关键来源 |
|---|---|---|
| 全称 | MMAR:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix(中文常译为“MMAR:面向语音、音频、音乐及其混合的深度推理基准”) | |
| 提出机构 | 上海交通大学、南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077 AI 开源基金会等联合发布 | |
| 数据规模 | 1 000 条高质量的 音频‑问题‑答案 三元组,每条配有约 20 秒的真实互联网视频音频片段 | |
| 模态覆盖 | 包含 纯声音、纯音乐、纯语音 以及 声音‑音乐‑语音混合 七大模态组合,覆盖日常生活中常见的多模态听觉场景 | |
| 推理层级 | 每个问题按四个层级划分: 1️⃣ 信号层(频率、波形、节奏等低层属性) 2️⃣ 感知层(声音来源、说话人、方向等感知信息) 3️⃣ 语义层(音频内容的意义、意图) 4️⃣ 文化层(背景知识、风格、跨文化理解) |
|
| 子类细分 | 在每个层级下设有若干子类,以捕捉任务的多样性和复杂度(如多说话人交互、音乐作曲家关系、环境事件推断等) | |
| 思维链标注 | 所有问题均配有 Chain‑of‑Thought(CoT) 推理链说明,帮助模型学习多步骤推理路径 | |
| 评测方式 | 采用 准确率(Accuracy) 与 多步推理成功率 两大指标;对比了 30 款主流音频语言模型(包括开源模型与闭源模型 Gemini 2.0 Flash),结果显示开源模型平均准确率仅 56.7%,闭源模型最高 65.6% | |
| 数据获取 | 数据集已在 HuggingFace 开源,地址为 https://huggingface.co/datasets/BoJack/MMAR |
|
| 论文链接 | arXiv 预印本:https://arxiv.org/abs/2505.13032 | |
| 媒体报道 | • 《AI 集体“听不懂”!MMAR 基准测试揭示音频大模型短板》(凤凰网) • 《MMAR:一个挑战深度音频推理的基准测试》(搜狐) • 《MMAR 基准测试中的四层推理结构解析》(CSDN 博客) |
为什么 MMAR 重要?
- 填补音频推理空白:此前的音频评测多聚焦单一模态(仅语音或仅音乐),MMAR 首次系统化地覆盖 语音‑音频‑音乐混合 场景,逼近真实听觉环境。
- 推动多步推理研究:通过 CoT 标注和四层推理结构,MMAR 鼓励模型从“听”到“懂”再到“推”,超越传统的声学特征识别。
- 提供统一基准:为学术界和工业界提供统一的评测平台,便于对比不同模型的 感知 与 认知 能力,快速定位模型薄弱环节。
- 促进开源生态:数据集已在 HuggingFace 开放,配套评测脚本、基准报告均可直接使用,降低复现门槛。
如何使用 MMAR?
- 下载数据:访问 HuggingFace 页面(
https://huggingface.co/datasets/BoJack/MMAR)获取音频文件、问题文本和答案对。 - 加载基准脚本:官方提供的 Python 评测脚本支持 BLEU、ROUGE、Exact Match 等指标,可直接对模型输出进行评分。
- 模型对齐:建议在 音频‑文本联合预训练(如 Audio‑LM、Whisper‑based 多模态模型)后,再在 MMAR 上进行 微调,以提升多模态推理能力。
- 结果报告:参考官方报告中的 层级分布 与 子类表现,对模型在不同难度层面的表现进行细粒度分析。
小贴士:在噪声环境下的推理表现尤为关键,MMAR 中包含若干带噪声的混合音频,可用于评估模型的鲁棒性。
快速入口
- 论文(PDF): https://arxiv.org/abs/2505.13032
- 数据集(HuggingFace): https://huggingface.co/datasets/BoJack/MMAR
- 基准报告(中文): https://www.sohu.com/a/902723418_610300
- 技术评测(CSDN): https://blog.csdn.net/QbitAI/article/details/148546032
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!