什么是RealEstate10K数据集

AI解读 4个月前 硕雀
106 0

RealEstate10K 数据集概述

RealEstate10K 是由 Google(Google LLC)发布的一个大规模相机姿态(camera‑pose)数据集,专为 新视角合成、三维重建、相机轨迹预测、视图合成模型训练 等视觉任务设计。

项目 内容
数据来源 从约 10 000 条公开的 YouTube 房地产视频中截取剪辑。
规模 大约 80 000 条视频片段,累计约 1 000 万帧(约 10 百万张图像)。训练集约占 90%,测试集约占 10%。
场景类型 主要为住宅、室内外房产导览,包含多样的相机运动(平移、旋转、变焦)以及不同光照、材质的真实场景。
标注信息 每帧提供 时间戳、相机内参(K 矩阵)和相机外参(3×4 位姿矩阵)‍,文件以 .txt 形式组织,每行 19 列数据。内参采用归一化坐标,可根据实际分辨率进行缩放。
数据划分 - 训练集:约 67 477 个场景
- 测试集:约 7 289 个场景(常用于跨数据集评估)
许可协议 Creative Commons Attribution 4.0 International(CC‑BY‑4.0),可用于学术研究和商业原型开发。
常见使用 - 新视角合成(NeRF、PixelSplat、MVSplat 等)
- 稀疏多视图 3D 重建
- 相机轨迹预测与 SLAM 评估
- 视图合成模型的预训练基准测试

获取方式与官方链接

  1. 官方下载页面(Google LLC)
    https://google.github.io/realestate10k/download.html
  2. 数据集概览(中文)‍ – Hyper.ai 数据平台
    https://hyper.ai/datasets/21504
  3. GitHub 下载脚本(用于自动下载 YouTube 视频并提取帧)
    https://github.com/cashiwamochi/RealEstate10K_Downloader
  4. MURF 项目中的数据组织说明(展示如何在代码库中引用 RealEstate10K)
    https://github.com/autonomousvision/murf/blob/main/DATASETS.md

技术细节要点

  • 相机内参:文件中提供焦距、主点坐标等信息,可直接构造 3×3 矩阵 K。
  • 相机外参:3×4 位姿矩阵 P = [R|t],描述相机在世界坐标系中的位置与朝向。
  • 时间戳:用于对齐帧序列,支持基于时间的采样或插值。
  • 分辨率:原始视频分辨率不统一,内参采用归一化形式,使用时需乘以实际图像宽高进行恢复。

适用研究方向

  • NeRF / 多视图合成:RealEstate10K 为大规模真实场景提供了丰富的视角变化,是评估新视角合成模型的“高考”。
  • 稀疏视图 3D 重建:提供稀疏且真实的相机轨迹,适合测试基于 SLAM、Bundle Adjustment 的稀疏重建算法。
  • 跨域泛化:由于场景多样,常用于检验模型在室内外、不同光照条件下的泛化能力

小结:RealEstate10K 是目前计算机视觉领域最具规模且标注完整的真实相机轨迹视频数据集之一,已被大量新视角合成、3D 重建和相机定位工作所采用。通过上述官方链接即可获取完整数据及使用说明。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!