什么是ScanNet数据集

AI解读 7小时前 硕雀
3 0

ScanNet 数据集概述

ScanNet 是由斯坦福大学、普林斯顿大学和慕尼黑工业大学等机构合作构建的大规模 RGB‑D 视频数据集,旨在推动室内三维场景理解、三维重建和相关机器学习研究。它提供了从真实室内环境中采集的多模态信息,包括:

内容 说明
场景数量 1513 个不同的室内场景(包括住宅、办公室、公共空间等)
图像帧数 超过 250 万 帧 RGB‑D 图像,约 2.5M 视角
传感器 使用 RGB‑D 摄像机(如 Structure Sensor)采集,提供 RGB 图、深度图、相机位姿
三维重建 高质量的表面网格(.ply)和稠密点云,覆盖率约 90%
标注类型 语义体素标注(约 20 类常见家具)
实例级分割(每个物体实例单独标记)
2D 像素级标签(.png/ .json)
相机姿态(.sens 文件)
数据格式 .sens(原始序列)、.ply(网格)、.npz/.bin(点云)、.json/.png(标签)等
任务支持 3D 目标检测、语义体素标注、实例分割、物体分类、CAD 模型检索、图像‑到‑3D 重建等

版本演进

版本 主要特征
ScanNet v1 初始发布,包含 1513 场景的基本 RGB‑D 数据和语义标注。
ScanNet v2 进一步完善,提供更高分辨率的网格、完整的实例级标注以及更丰富的元数据,已成为多数最新研究的基准
ScanNet++(2023) 由慕尼黑工业大学提出,收录 460 个高分辨率场景,融合激光扫描、DSLR 与手机 RGB‑D,提升了分辨率和标注质量,适用于 NeRF 等新兴任务

下载与使用

  • 官方下载页面:<https://www.scan-net.org/ >(需填写协议并使用机构邮箱申请)
  • 数据总量约 800 GB,包括原始序列、重建模型、标注文件等
  • 官方提供的工具链包括相机位姿估计、网格生成、点云下采样等,帮助研究者快速构建训练/测试集

常见研究任务与基准

任务 说明 典型基准指标
3D 语义体素标注 对每个体素预测语义类别(20 类) mIoU
实例分割 为每个物体实例生成分割掩码 AP
3D 目标检测 检测并定位场景中的家具实例 mAP
物体分类 对点云或体素进行类别预测 分类准确率
CAD 模型检索 将场景中的实例匹配到对应的 CAD 模型 检索准确率

这些任务在 ScanNet 上的实验已证明该数据集能够显著提升模型的性能,成为 3D 场景理解领域的标准基准。

数据质量与优势

  1. 规模大:1513 场景、250 万帧,覆盖多种室内布局。
  2. 标注完整:从像素级语义到实例级分割,再到 3D CAD 对齐,标注层次丰富。
  3. 自动化采集:采用易用的 RGB‑D 捕获系统,配合自动表面重建和众包标注,保证了数据的一致性和高质量。
  4. 多模态:提供 RGB、深度、点云、网格、相机位姿等多种形式,支持跨模态学习。

使用注意事项

  • 获取许可:下载前需同意使用条款并提供机构邮箱。
  • 引用要求:在学术工作中必须引用原始论文 “ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes” (CVPR 2017)。
  • 存储需求:完整数据约 800 GB,建议使用高速存储或分块下载。

小结
ScanNet 是目前最具影响力的室内 RGB‑D 大规模数据集之一,提供了丰富的三维重建和语义标注,支撑了从点云分类到 NeRF 重建等多种前沿研究。其规模、标注深度和多模态特性使其成为 3D 场景理解、机器人感知和计算机视觉等领域的核心基准。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!