什么是WorldSense数据集

AI解读 2个月前硕雀

43 0 0

WorldSense 数据集概览

项目	内容
全称	WorldSense: Evaluating Real‑world Omnimodal Understanding for Multimodal LLMs
发布机构	小红书（Xiaohongshu）公司 & 上海交通大学
发布时间	2025 年 2 月（论文 arXiv 预印本）
数据规模	• 1 662 条同步音视频片段（平均时长约 141 秒，最长超过 10 分钟） • 3 172 条多项选择题‑答案对，覆盖 3 层评估层次 • 视频分布在 8 大类、67 小类中，音频包含语音、环境声、音乐等多模态信息
每条实例包含	- 视频文件（含原始音频） - 自动生成的字幕（YouTube） - 问题（针对视频内容） - 正确答案（多项选择） - 视频所属大类/子类 - 细粒度的视觉理解能力标签 - 音频内容类别标签
数据来源	视频主要采自公开的 FineVideo 与 Music‑AVQA 数据集，所有问答均由人工重新标注
评估目标	评估多模态大语言模型（MLLM）在全模态（omni‑modal）‍ 场景下的理解能力，包括视觉、听觉、语言以及它们的交叉推理。任务包括： 1. 视频内容理解 2. 音频信息辨识 3. 跨模态推理与常识推断
许可协议	CC BY‑NC‑SA 4.0（非商业、共享‑相同方式）
主要用途	- 为学术研究提供统一、真实世界的多模态基准 - 推动 MLLM 在真实场景中的感知与决策能力提升 - 鼓励遵守伦理规范，避免有害或歧视性应用
获取方式	官方数据集主页提供下载链接与使用说明： https://wisemodel.cn/datasets/JackHong/WorldSense/intro
关联论文	arXiv 预印本（PDF）： https://arxiv.org/pdf/2502.04326.pdf
补充阅读	- 技术博客 “Unlocking Omni‑Modal Understanding: The Rise of Ola and WorldSense” (2025‑02‑07) 详细阐述了数据集设计动机与评测框架：https://dev.to/gilles_hamelink_ea9ff7d93/unlocking-omni-modal-understanding-the-rise-of-ola-and-worldsense-4f8e - 业内媒体报道（2025‑02‑13）提供了数据统计表与示例图片：https://mmssai.com/archives/18013

关键特点简述

全模态覆盖：每条实例同时提供视觉（视频帧）、听觉（原始音频）和语言（字幕、问答），实现对真实感官信息的综合评估。
细粒度标签：除了大类/子类，还标注了“细粒度视频理解能力”和“音频内容类别”，便于针对特定能力进行细致分析。
真实场景：视频来源于日常生活、社交平台等真实场景，时长、内容多样，能够检验模型在复杂环境下的鲁棒性。
严格伦理：数据收集遵循隐私保护与偏见审查，使用时需遵守 CC BY‑NC‑SA 4.0 许可并避免有害用途。
开放获取：通过官方页面可直接下载全部视频、音频、字幕及问答文件，配套提供评测脚本，方便研究者快速上手。

总结：WorldSense 是目前首个专注于 真实世界全模态（视觉、听觉、语言）理解的基准数据集，规模适中、标签丰富、伦理审查完善，已成为评估多模态大语言模型（MLLM）在实际场景中感知与推理能力的核心资源。

WorldSense WorldSense数据集

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！