| 项目 | 内容 |
|---|---|
| 全称 | WorldSense: Evaluating Real‑world Omnimodal Understanding for Multimodal LLMs |
| 发布机构 | 小红书(Xiaohongshu)公司 & 上海交通大学 |
| 发布时间 | 2025 年 2 月(论文 arXiv 预印本) |
| 数据规模 | • 1 662 条同步音视频片段(平均时长约 141 秒,最长超过 10 分钟) • 3 172 条多项选择题‑答案对,覆盖 3 层评估层次 • 视频分布在 8 大类、67 小类中,音频包含语音、环境声、音乐等多模态信息 |
| 每条实例包含 | - 视频文件(含原始音频) - 自动生成的字幕(YouTube) - 问题(针对视频内容) - 正确答案(多项选择) - 视频所属大类/子类 - 细粒度的视觉理解能力标签 - 音频内容类别标签 |
| 数据来源 | 视频主要采自公开的 FineVideo 与 Music‑AVQA 数据集,所有问答均由人工重新标注 |
| 评估目标 | 评估多模态大语言模型(MLLM)在 全模态(omni‑modal) 场景下的理解能力,包括视觉、听觉、语言以及它们的交叉推理。任务包括: 1. 视频内容理解 2. 音频信息辨识 3. 跨模态推理与常识推断 |
| 许可协议 | CC BY‑NC‑SA 4.0(非商业、共享‑相同方式) |
| 主要用途 | - 为学术研究提供统一、真实世界的多模态基准 - 推动 MLLM 在真实场景中的感知与决策能力提升 - 鼓励遵守伦理规范,避免有害或歧视性应用 |
| 获取方式 | 官方数据集主页提供下载链接与使用说明: https://wisemodel.cn/datasets/JackHong/WorldSense/intro |
| 关联论文 | arXiv 预印本(PDF): https://arxiv.org/pdf/2502.04326.pdf |
| 补充阅读 | - 技术博客 “Unlocking Omni‑Modal Understanding: The Rise of Ola and WorldSense” (2025‑02‑07) 详细阐述了数据集设计动机与评测框架:https://dev.to/gilles_hamelink_ea9ff7d93/unlocking-omni-modal-understanding-the-rise-of-ola-and-worldsense-4f8e - 业内媒体报道(2025‑02‑13)提供了数据统计表与示例图片:https://mmssai.com/archives/18013 |
关键特点简述
- 全模态覆盖:每条实例同时提供视觉(视频帧)、听觉(原始音频)和语言(字幕、问答),实现对真实感官信息的综合评估。
- 细粒度标签:除了大类/子类,还标注了“细粒度视频理解能力”和“音频内容类别”,便于针对特定能力进行细致分析。
- 真实场景:视频来源于日常生活、社交平台等真实场景,时长、内容多样,能够检验模型在复杂环境下的鲁棒性。
- 严格伦理:数据收集遵循隐私保护与偏见审查,使用时需遵守 CC BY‑NC‑SA 4.0 许可并避免有害用途。
- 开放获取:通过官方页面可直接下载全部视频、音频、字幕及问答文件,配套提供评测脚本,方便研究者快速上手。
总结:WorldSense 是目前首个专注于 真实世界全模态(视觉、听觉、语言)理解的基准数据集,规模适中、标签丰富、伦理审查完善,已成为评估多模态大语言模型(MLLM)在实际场景中感知与推理能力的核心资源。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!