什么是MultiCamVideo数据集

MultiCamVideo 数据集概述

MultiCamVideo 是一个大规模、合成的多摄像机同步视频数据集，专为研究 多视角视频生成、相机轨迹控制、姿态保持以及跨视角一致性 等任务而设计。该数据集由 Kuaishou（快手）视觉生成实验室 与 浙江大学 合作构建，使用 Unreal Engine 5 进行高质量渲染。

项目	说明
场景数量	约 13,600 个动态场景，每个场景包含完整的 3D 环境、角色、动画以及相机信息
摄像机数量	每个场景同步捕获 10 条不同视角的视频
视频总量	136,000 条 1280 × 1280 分辨率的视频（每条 81 帧）
相机参数	四种焦距（18 mm、24 mm、35 mm、50 mm）在同一场景内保持不变；轨迹类型包括平移、倾斜、弧线、随机和静止
内容组成	每个场景由 3D 环境 + 主体角色（人物/动物） + 动画 + 相机轨迹四要素构成
应用场景	用于评估文本到视频（T2V）模型、相机条件化视频生成、姿态保持、跨视角一致性等前沿视觉生成技术
开源与下载	数据集及相关代码托管在 GitHub，提供下载链接与使用说明

获取方式

GitHub 项目页面（含数据下载脚本、文档与示例）：
https://github.com/KwaiVGI/ReCamMaster/
论文与技术报告（详细描述数据构建与统计）：
- Bai J. et al., “ReCamMaster: Camera‑Controlled Generative Rendering from A Single Video”, 2025（arXiv/OpenReview）
- 相关评测报告《YingVideo‑MV: A Cascade Framework for High‑Quality Music Video Generation》提及该数据集作为基准

主要特点与优势

同步多视角：同一时间点的 10 条视角共享相同的起始帧，便于跨视角对齐与比较。
丰富的相机运动：提供多种轨迹（平移、倾斜、弧线等），覆盖真实拍摄中常见的相机运动模式。
高分辨率与完整标注：每帧 1280 × 1280，配套提供相机内外参、轨迹参数以及 3D 场景信息，支持多任务学习。
完全合成、可控：使用 UE5 渲染，场景、角色、光照等均可自由配置，适合数据增强与实验对照。
大规模：超过 13 k 场景、136 k 视频，为训练大模型提供足够的样本量。

适用研究方向

多视角视频合成（如从单视角生成新视角视频）
相机轨迹预测与控制
姿态保持与跨视角动作一致性
视频‑到‑视频（V2V）迁移学习
生成式视频评估基准（FID、FVD、相机运动误差等）

通过上述资源，研究者可以直接下载并在自己的实验中使用 MultiCamVideo 数据集，或参考其构建方法自行生成类似的合成多摄像机数据。

什么是MultiCamVideo数据集

什么是空间智能感知（Spatial‑Intelligent Perception）

什么是NYU‑Depth V2数据集

什么是MultiCamVideo数据集

什么是空间智能感知（Spatial‑Intelligent Perception）

什么是NYU‑Depth V2数据集

什么是NYU‑Depth V2数据集