Video‑MME 基准概述
Video‑MME(Video Multi‑Modal Evaluation)是首个专门用于 多模态大语言模型(MLLM)在视频分析任务上进行系统评估 的综合基准。它由中国科学技术大学、厦门大学、香港大学、北京大学、香港中文大学、华东师范大学等高校联合研发,并已在 GitHub 与项目官网上开源。
1. 设计初衷
- 传统评测多聚焦于 静态图像,而对 连续视觉(视频) 的能力缺乏系统测评手段。
- Video‑MME 旨在填补这一空白,为研究者提供统一、可复现的评估框架,推动 MLLM 在 视频感知、跨模态推理、信息摘要等 方向的进步。
2. 数据规模与构成
| 项目 | 说明 |
|---|---|
| 视频数量 | 900 条 |
| 累计时长 | 约 256 小时(短视频 < 2 min、中视频 4‑15 min、长视频 30‑60 min) |
| 多模态信息 | 视频帧 + 字幕 + 音频 |
| 标注问答对 | 2700 条高质量多选题(每段视频约 3 题) |
| 领域覆盖 | 6 大视觉领域(知识、影视、体育、艺术表演、生活记录、多语言),细分 30+ 子领域 |
| 任务类型 | 感知、推理、信息摘要、跨模态检索等 |
所有问答均由专家人工标注,确保标注质量和多样性。
3. 评测方式
- 多选题:模型观看完整视频(或读取字幕/音频),在给定选项中选出最符合的视频内容答案。
- 统一协议:采用严格的答案匹配规则,便于不同模型之间的公平比较。
- 指标:主要报告 准确率(Accuracy),并可细分为不同时长、不同模态组合的表现。
4. 已评测模型(截至 2024‑2025)
- 商业模型:Google Gemini 1.5 Pro、OpenAI GPT‑4 系列等表现领先。
- 开源模型:InternVL‑Chat‑V1.5、LLaVA‑NeXT‑Video 等在长视频和多模态融合上仍有提升空间。
- 评测结果显示,长时序推理 与 跨模态协同 是当前模型的主要瓶颈。
5. 资源获取
- 项目主页 & 数据下载: https://video-mme.github.io
- GitHub 代码仓库: https://github.com/video-mme/video-mme
- 论文(arXiv): https://arxiv.org/abs/2405.21075 (标题:Video‑MME: The First‑Ever Comprehensive Evaluation Benchmark for Multi‑modal LLMs in Video Analysis)
- Papers with Code 页面: https://paperswithcode.com/dataset/video-mme
6. 适用场景
简要结论
Video‑MME 通过大规模、跨模态、细粒度的问答标注,首次为多模态大语言模型在 视频分析 领域提供了系统、可复现的评估标准。它不仅帮助学术界发现模型的关键瓶颈,也为企业在实际视频业务中选型和优化提供了可靠依据。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!