M3-Bench 是一个专门用于评估AI模型长期记忆和推理能力的评测基准,由字节跳动Seed团队开发。该评测系统旨在科学评估AI在多模态任务中的记忆和推理能力,特别是在处理复杂和开放性问题时的表现。
M3-Bench 包含两个不同类型的数据集,总共涵盖1029个长视频和6381个问答对,是目前最全面的多模态长期记忆评测工具。
第一个数据集名为 M3-Bench-robot,包含100个从机器人视角拍摄的真实场景视频,模拟了机器人在日常生活中可能遇到的各种情况,如客厅聚会、厨房烹饪、卧室整理、书房学习、办公室工作、会议室讨论和健身房锻炼等。这些视频平均时长约34分钟。
第二个数据集 M3-Bench-web 收集了929个来自网络的多样化视频,涵盖了纪录片、探索节目、访谈、产品评测、街头互动、教程、综艺节目、个人vlog等,确保了评测的全面性和现实相关性。
M3-Bench 评测系统不仅用于评估AI模型的长期记忆和推理能力,还用于评估其在复杂和开放性问题上的表现。例如,M3-Agent(字节跳动开发的多模态智能体框架)在 M3-Bench 上的表现显示了其在长期记忆和推理能力上的显著优势。在 M3-Bench-robot 数据集上,M3-Agent 达到了30.7%的准确率,比最强基线方法高出6.7%;在 M3-Bench-web 数据集上,准确率达到48.9%,提升了7.7%。
M3-Bench 评测系统不仅是一个评估工具,还为AI模型的开发和优化提供了重要的参考和指导。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!