ScanNet 数据集概述
ScanNet 是由斯坦福大学、普林斯顿大学和慕尼黑工业大学等机构合作构建的大规模 RGB‑D 视频数据集,旨在推动室内三维场景理解、三维重建和相关机器学习研究。它提供了从真实室内环境中采集的多模态信息,包括:
内容 | 说明 |
---|---|
场景数量 | 1513 个不同的室内场景(包括住宅、办公室、公共空间等) |
图像帧数 | 超过 250 万 帧 RGB‑D 图像,约 2.5M 视角 |
传感器 | 使用 RGB‑D 摄像机(如 Structure Sensor)采集,提供 RGB 图、深度图、相机位姿 |
三维重建 | 高质量的表面网格(.ply)和稠密点云,覆盖率约 90% |
标注类型 | - 语义体素标注(约 20 类常见家具) - 实例级分割(每个物体实例单独标记) - 2D 像素级标签(.png/ .json) - 相机姿态(.sens 文件) |
数据格式 | .sens(原始序列)、.ply(网格)、.npz/.bin(点云)、.json/.png(标签)等 |
任务支持 | 3D 目标检测、语义体素标注、实例分割、物体分类、CAD 模型检索、图像‑到‑3D 重建等 |
版本演进
版本 | 主要特征 |
---|---|
ScanNet v1 | 初始发布,包含 1513 场景的基本 RGB‑D 数据和语义标注。 |
ScanNet v2 | 进一步完善,提供更高分辨率的网格、完整的实例级标注以及更丰富的元数据,已成为多数最新研究的基准 |
ScanNet++(2023) | 由慕尼黑工业大学提出,收录 460 个高分辨率场景,融合激光扫描、DSLR 与手机 RGB‑D,提升了分辨率和标注质量,适用于 NeRF 等新兴任务 |
下载与使用
- 官方下载页面:<https://www.scan-net.org/ >(需填写协议并使用机构邮箱申请)
- 数据总量约 800 GB,包括原始序列、重建模型、标注文件等
- 官方提供的工具链包括相机位姿估计、网格生成、点云下采样等,帮助研究者快速构建训练/测试集
常见研究任务与基准
任务 | 说明 | 典型基准指标 |
---|---|---|
3D 语义体素标注 | 对每个体素预测语义类别(20 类) | mIoU |
实例分割 | 为每个物体实例生成分割掩码 | AP |
3D 目标检测 | 检测并定位场景中的家具实例 | mAP |
物体分类 | 对点云或体素进行类别预测 | 分类准确率 |
CAD 模型检索 | 将场景中的实例匹配到对应的 CAD 模型 | 检索准确率 |
这些任务在 ScanNet 上的实验已证明该数据集能够显著提升模型的性能,成为 3D 场景理解领域的标准基准。
数据质量与优势
- 规模大:1513 场景、250 万帧,覆盖多种室内布局。
- 标注完整:从像素级语义到实例级分割,再到 3D CAD 对齐,标注层次丰富。
- 自动化采集:采用易用的 RGB‑D 捕获系统,配合自动表面重建和众包标注,保证了数据的一致性和高质量。
- 多模态:提供 RGB、深度、点云、网格、相机位姿等多种形式,支持跨模态学习。
使用注意事项
- 获取许可:下载前需同意使用条款并提供机构邮箱。
- 引用要求:在学术工作中必须引用原始论文 “ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes” (CVPR 2017)。
- 存储需求:完整数据约 800 GB,建议使用高速存储或分块下载。
小结
ScanNet 是目前最具影响力的室内 RGB‑D 大规模数据集之一,提供了丰富的三维重建和语义标注,支撑了从点云分类到 NeRF 重建等多种前沿研究。其规模、标注深度和多模态特性使其成为 3D 场景理解、机器人感知和计算机视觉等领域的核心基准。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!