| 内容 | 说明 |
|---|---|
| 全称 | Daily‑Omni (Daily‑Omni Audio‑Visual Question‑Answering Benchmark) |
| 发布机构 | 复旦大学计算与人工智能创新学院、可信嵌入式 AI 研究所(2025 年) |
| 论文 & arXiv 链接 | https://arxiv.org/abs/2505.17862 |
| 代码/数据仓库 | https://github.com/Lliar-liar/Daily-Omni (包含数据下载脚本、标注与 QA 生成流水线) |
| 数据规模 | 684 条日常生活视频(30 s 或 60 s 长度) 1197 条多选 QA(覆盖 6 大任务) |
| 任务类型 | 1. AV 事件对齐:判断音频与视觉事件是否同步 2. 事件顺序:辨别音视频事件的先后顺序 3. 推理:解释音视频事件产生的原因 4. 推断:对未直接呈现的信息进行合理猜测 5. 比较:比较两个或多个音视频事件的相似/差异 6. 上下文理解:把握事件发生的场景与背景 |
| 标注与 QA 生成流程 | 1. 多模态数据收集:从 AudioSet、Video‑MME、FineVideo 等公开数据源抽取原始视频,并裁剪为 30 s / 60 s 片段。 2. 分段标注:将每段视频再细分为 3‑4 小段,分别使用视觉语言模型(VLM)和音频语言模型(ALM)生成视觉与音频描述。 3. 跨模态一致性检查:利用大型语言模型(如 Gemini 2.0 Flash)对全片段进行一致性校验,纠正跨模态幻觉。 4. 事件对齐:在完整片段上提示模型输出每个音频事件对应的视觉事件及其时间戳,实现精细的时序对齐。 5. QA 生成:基于对齐后的事件对,使用 Reasoning LLM(Deepseek‑R1)生成覆盖上述 6 大任务的多选题。 6. 质量过滤:① 通过文本‑only LLM(GPT‑4o、Deepseek‑V3)剔除可仅凭文字解答的题目;② 人工审查确保唯一正确答案、答案确实需要音视频信息。最终保留 1197 条高质量 QA |
| 评测指标 | 采用 4 选一多选制,随机猜测基准为 25%。模型在 Daily‑Omni 上的整体准确率已成为衡量跨模态时序推理能力的关键指标。 |
| 在业界的影响 | 多个最新全模态大语言模型(如 NVIDIA OmniVinci、Qwen2.5‑Omni)在该基准上报告了显著提升。例如 OmniVinci 在 Daily‑Omni 上取得 66.5 分,领先 Qwen2.5‑Omni 19.05 分。这表明 Daily‑Omni 已成为评估音视频融合、时间感知与跨模态推理的标准测试集。 |
使用建议
- 模型评估:在模型推理阶段,先将视频切分为等长片段,分别获取视觉与音频描述,再利用对齐信息生成时间戳,最后将这些信息喂入多模态 LLM 进行 QA。
- 数据扩展:Daily‑Omni 的标注流水线已开源,研究者可通过替换数据源(如加入更多语言或更长时序)快速生成新的子集。
- 基准对比:在报告模型性能时,建议同时给出(a)仅视觉输入的表现、(b)仅音频输入的表现,以体现模型对多模态信息的真实依赖程度。
快速入口:
- 论文 PDF & 代码仓库 → https://github.com/Lliar-liar/Daily-Omni
- arXiv 预印本 → https://arxiv.org/abs/2505.17862
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!