什么是Video‑MME基准

AI解读 2个月前硕雀

48 0 0

Video‑MME 基准概述

Video‑MME（Video Multi‑Modal Evaluation）是首个专门用于 多模态大语言模型（MLLM）在视频分析任务上进行系统评估 的综合基准。它由中国科学技术大学、厦门大学、香港大学、北京大学、香港中文大学、华东师范大学等高校联合研发，并已在 GitHub 与项目官网上开源。

1. 设计初衷

传统评测多聚焦于 静态图像，而对 连续视觉（视频）‍ 的能力缺乏系统测评手段。
Video‑MME 旨在填补这一空白，为研究者提供统一、可复现的评估框架，推动 MLLM 在 视频感知、跨模态推理、信息摘要等 方向的进步。

2. 数据规模与构成

项目	说明
视频数量	900 条
累计时长	约 256 小时（短视频 < 2 min、中视频 4‑15 min、长视频 30‑60 min）
多模态信息	视频帧 + 字幕 + 音频
标注问答对	2700 条高质量多选题（每段视频约 3 题）
领域覆盖	6 大视觉领域（知识、影视、体育、艺术表演、生活记录、多语言），细分 30+ 子领域
任务类型	感知、推理、信息摘要、跨模态检索等

所有问答均由专家人工标注，确保标注质量和多样性。

3. 评测方式

多选题：模型观看完整视频（或读取字幕/音频），在给定选项中选出最符合的视频内容答案。
统一协议：采用严格的答案匹配规则，便于不同模型之间的公平比较。
指标：主要报告 准确率（Accuracy）‍，并可细分为不同时长、不同模态组合的表现。

4. 已评测模型（截至 2024‑2025）

商业模型：Google Gemini 1.5 Pro、OpenAI GPT‑4 系列等表现领先。
开源模型：InternVL‑Chat‑V1.5、LLaVA‑NeXT‑Video 等在长视频和多模态融合上仍有提升空间。
评测结果显示，长时序推理 与 跨模态协同 是当前模型的主要瓶颈。

5. 资源获取

项目主页 & 数据下载： https://video-mme.github.io
GitHub 代码仓库： https://github.com/video-mme/video-mme
论文（arXiv）‍： https://arxiv.org/abs/2405.21075 （标题：Video‑MME: The First‑Ever Comprehensive Evaluation Benchmark for Multi‑modal LLMs in Video Analysis）
Papers with Code 页面： https://paperswithcode.com/dataset/video-mme

6. 适用场景

模型研发：快速定位模型在视频感知、推理、摘要等子任务的强弱点。
学术对比：提供统一基准，便于在论文中进行公平比较。
工业落地：评估视频内容理解、智能客服、教育培训等业务场景下的多模态模型表现。

简要结论
Video‑MME 通过大规模、跨模态、细粒度的问答标注，首次为多模态大语言模型在 视频分析 领域提供了系统、可复现的评估标准。它不仅帮助学术界发现模型的关键瓶颈，也为企业在实际视频业务中选型和优化提供了可靠依据。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！