什么是MultiCamVideo数据集

MultiCamVideo 数据集概述

MultiCamVideo 是一个大规模、合成的多摄像机同步视频数据集,专为研究 多视角视频生成、相机轨迹控制、姿态保持以及跨视角一致性 等任务而设计。该数据集由 Kuaishou(快手)视觉生成实验室 与 浙江大学 合作构建,使用 Unreal Engine 5 进行高质量渲染。

项目 说明
场景数量 约 13,600 个动态场景,每个场景包含完整的 3D 环境、角色、动画以及相机信息
摄像机数量 每个场景同步捕获 10 条不同视角的视频
视频总量 136,000 条 1280 × 1280 分辨率的视频(每条 81 帧)
相机参数 四种焦距(18 mm、24 mm、35 mm、50 mm)在同一场景内保持不变;轨迹类型包括平移、倾斜、弧线、随机和静止
内容组成 每个场景由 3D 环境 + 主体角色(人物/动物) + 动画 + 相机轨迹 四要素构成
应用场景 用于评估 文本到视频(T2V)模型、相机条件化视频生成、姿态保持、跨视角一致性 等前沿视觉生成技术
开源与下载 数据集及相关代码托管在 GitHub,提供下载链接与使用说明

获取方式

  • GitHub 项目页面(含数据下载脚本、文档与示例):
    https://github.com/KwaiVGI/ReCamMaster/
  • 论文与技术报告(详细描述数据构建与统计):
    • Bai J. et al., “ReCamMaster: Camera‑Controlled Generative Rendering from A Single Video”, 2025(arXiv/OpenReview)
    • 相关评测报告《YingVideo‑MV: A Cascade Framework for High‑Quality Music Video Generation》提及该数据集作为基准

主要特点与优势

  1. 同步多视角:同一时间点的 10 条视角共享相同的起始帧,便于跨视角对齐与比较。
  2. 丰富的相机运动:提供多种轨迹(平移、倾斜、弧线等),覆盖真实拍摄中常见的相机运动模式。
  3. 高分辨率与完整标注:每帧 1280 × 1280,配套提供相机内外参、轨迹参数以及 3D 场景信息,支持多任务学习
  4. 完全合成、可控:使用 UE5 渲染,场景、角色、光照等均可自由配置,适合数据增强与实验对照。
  5. 大规模:超过 13 k 场景、136 k 视频,为训练大模型提供足够的样本量。

适用研究方向

  • 多视角视频合成(如从单视角生成新视角视频)
  • 相机轨迹预测与控制
  • 姿态保持与跨视角动作一致性
  • 视频‑到‑视频(V2V)迁移学习
  • 生成式视频评估基准(FID、FVD、相机运动误差等)

通过上述资源,研究者可以直接下载并在自己的实验中使用 MultiCamVideo 数据集,或参考其构建方法自行生成类似的合成多摄像机数据。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!