什么是Video‑MME基准

AI解读 2个月前 硕雀
48 0

Video‑MME 基准概述

Video‑MME(Video Multi‑Modal Evaluation)是首个专门用于 多模态大语言模型MLLM)在视频分析任务上进行系统评估 的综合基准。它由中国科学技术大学、厦门大学、香港大学、北京大学、香港中文大学、华东师范大学等高校联合研发,并已在 GitHub 与项目官网上开源。

1. 设计初衷

  • 传统评测多聚焦于 静态图像,而对 连续视觉(视频)‍ 的能力缺乏系统测评手段。
  • Video‑MME 旨在填补这一空白,为研究者提供统一、可复现的评估框架,推动 MLLM 在 视频感知、跨模态推理、信息摘要等 方向的进步。

2. 数据规模与构成

项目 说明
视频数量 900 条
累计时长 约 256 小时(短视频 < 2 min、中视频 4‑15 min、长视频 30‑60 min)
多模态信息 视频帧 + 字幕 + 音频
标注问答对 2700 条高质量多选题(每段视频约 3 题)
领域覆盖 6 大视觉领域(知识、影视、体育、艺术表演、生活记录、多语言),细分 30+ 子领域
任务类型 感知、推理、信息摘要、跨模态检索等

所有问答均由专家人工标注,确保标注质量和多样性。

3. 评测方式

  • 多选题:模型观看完整视频(或读取字幕/音频),在给定选项中选出最符合的视频内容答案。
  • 统一协议:采用严格的答案匹配规则,便于不同模型之间的公平比较。
  • 指标:主要报告 准确率Accuracy‍,并可细分为不同时长、不同模态组合的表现。

4. 已评测模型(截至 2024‑2025)

  • 商业模型:Google Gemini 1.5 Pro、OpenAI GPT‑4 系列等表现领先。
  • 开源模型:InternVL‑Chat‑V1.5、LLaVA‑NeXT‑Video 等在长视频和多模态融合上仍有提升空间。
  • 评测结果显示,长时序推理 与 跨模态协同 是当前模型的主要瓶颈。

5. 资源获取

6. 适用场景

  • 模型研发:快速定位模型在视频感知、推理、摘要等子任务的强弱点。
  • 学术对比:提供统一基准,便于在论文中进行公平比较。
  • 工业落地:评估视频内容理解、智能客服、教育培训等业务场景下的多模态模型表现。

简要结论
Video‑MME 通过大规模、跨模态、细粒度的问答标注,首次为多模态大语言模型在 视频分析 领域提供了系统、可复现的评估标准。它不仅帮助学术界发现模型的关键瓶颈,也为企业在实际视频业务中选型和优化提供了可靠依据。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!