什么是ScanNet数据集

AI解读 7小时前硕雀

3 0 0

ScanNet 数据集概述

ScanNet 是由斯坦福大学、普林斯顿大学和慕尼黑工业大学等机构合作构建的大规模 RGB‑D 视频数据集，旨在推动室内三维场景理解、三维重建和相关机器学习研究。它提供了从真实室内环境中采集的多模态信息，包括：

内容	说明
场景数量	1513 个不同的室内场景（包括住宅、办公室、公共空间等）
图像帧数	超过 250 万帧 RGB‑D 图像，约 2.5M 视角
传感器	使用 RGB‑D 摄像机（如 Structure Sensor）采集，提供 RGB 图、深度图、相机位姿
三维重建	高质量的表面网格（.ply）和稠密点云，覆盖率约 90%
标注类型	- 语义体素标注（约 20 类常见家具） - 实例级分割（每个物体实例单独标记） - 2D 像素级标签（.png/ .json） - 相机姿态（.sens 文件）
数据格式	.sens（原始序列）、.ply（网格）、.npz/.bin（点云）、.json/.png（标签）等
任务支持	3D 目标检测、语义体素标注、实例分割、物体分类、CAD 模型检索、图像‑到‑3D 重建等

版本	主要特征
ScanNet v1	初始发布，包含 1513 场景的基本 RGB‑D 数据和语义标注。
ScanNet v2	进一步完善，提供更高分辨率的网格、完整的实例级标注以及更丰富的元数据，已成为多数最新研究的基准
ScanNet++（2023）	由慕尼黑工业大学提出，收录 460 个高分辨率场景，融合激光扫描、DSLR 与手机 RGB‑D，提升了分辨率和标注质量，适用于 NeRF 等新兴任务

这些任务在 ScanNet 上的实验已证明该数据集能够显著提升模型的性能，成为 3D 场景理解领域的标准基准。

获取许可：下载前需同意使用条款并提供机构邮箱。
引用要求：在学术工作中必须引用原始论文 “ScanNet: Richly-Annotated 3D Reconstructions of Indoor Scenes” (CVPR 2017)。
存储需求：完整数据约 800 GB，建议使用高速存储或分块下载。

小结
ScanNet 是目前最具影响力的室内 RGB‑D 大规模数据集之一，提供了丰富的三维重建和语义标注，支撑了从点云分类到 NeRF 重建等多种前沿研究。其规模、标注深度和多模态特性使其成为 3D 场景理解、机器人感知和计算机视觉等领域的核心基准。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！