什么是Matterport3D数据集

AI解读 7小时前 硕雀
4 0

Matterport3D 数据集概览

内容 说明
全称 Matterport3D (MP3D)
发布年份 2017 年
采集设备 Matterport Pro 3D 摄像机(结构光扫描仪)
场景数量 90 栋建筑(约 2 194 间房间)
图像数量 194 400 张 RGB‑D 图像
全景视图 10 800 张 360° 全景(每帧包含 RGB 与深度)
标注类型 - 实例级对象分割
- 2D/3D 语义分割
- 相机姿态与全局对齐
主要任务 - 语义分割
- 场景分类
- 关键点匹配、视点重叠预测、法线预测
- 基于视觉的导航、语言辅助的模仿学习等
数据划分 官方提供的训练/验证/测试划分(训练 1 537 间房间,测试 402 间)
文件格式 OBJ/GLB(网格),JPG(纹理),PNG(深度),JSON(标注)
适用领域 计算机视觉、机器人导航、虚拟现实、Embodied AI

1. 数据集简介

Matterport3D 是由 Princeton、Stanford 与德国慕尼黑工业大学等团队联合发布的室内大规模 RGB‑D 数据集。它通过 Matterport Pro 3D 摄像机对真实建筑进行全景扫描,提供了高质量、全局对齐的彩色图像、深度图以及丰富的语义/实例标注,使得研究者能够在真实室内环境中开展多种视觉感知任务。

2. 采集与标注细节

  • 采集:每栋建筑使用 3D 摄像机在多个视角拍摄,生成 360° 全景并同步记录深度信息。
  • 标注:所有全景图均经过人工标注,得到 40 类对象的实例级分割,且提供每帧的相机位姿和全局坐标系对齐。
  • 质量:全局对齐误差极低,深度分辨率为 1280×1024,适合高精度几何重建和语义理解

3. 常用研究任务

  • 语义分割 & 实例分割:利用像素级标注训练分割网络。
  • 视点重叠预测 / 关键点匹配:利用全景视角的丰富视角覆盖进行匹配实验。
  • 场景分类 & 房间类型识别:基于 90 栋建筑的多房间结构进行分类。
  • 视觉导航 & Embodied AI:在 Habitat、AI2‑Thor 等仿真平台中使用 MP3D 作为真实感环境进行导航、目标搜索等任务。

4. 数据获取方式

资源 链接 说明
官方主页 https://niessner.github.io/Matterport/ 提供数据概览、下载入口、使用协议
GitHub 代码仓库 https://github.com/niessner/Matterport 包含数据处理脚本、基准模型代码
论文(PDF) https://arxiv.org/pdf/1709.06158.pdf 原始论文《Matterport3D: Learning from RGB‑D Data in Indoor Environments》
数据下载页面 同官方主页的 “Download” 区块(需注册 Matterport 账号后获取下载链接) 包含原始 3D 网格、纹理、深度图、标注文件
数据集简介(中文) https://cloud.tencent.com/developer/article/1074675 中文技术文章,概括数据规模与特点
Papers with Code 页面 https://paperswithcode.com/dataset/matterport3d 汇总基准结果、相关代码实现

以上链接均来源于公开的官方或学术渠道,使用时请遵守相应的学术引用与非商业使用协议。

5. 推荐引用格式

@inproceedings{chang2017matterport3d,
  title   = {{Matterport3D}: Learning from {RGB-D} Data in Indoor Environments},
  author  = {Chang, Angel X. and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda},
  booktitle = {Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year    = {2017},
  url     = {https://arxiv.org/pdf/1709.06158.pdf}
}

6. 使用注意事项

  • 账号注册:下载原始数据需在 Matterport 官方网站注册并填写学术使用申请。
  • 数据许可:仅限学术研究、非商业用途,使用时必须注明数据来源并遵守官方协议。
  • 数据规模:完整数据约 200 GB,建议使用高速网络或通过分块下载方式获取。

小结
Matterport3D 是目前最具规模和标注完整度的室内 RGB‑D 数据集之一,提供了从建筑级别到像素级别的全方位信息,已成为室内场景理解、机器人导航和 Embodied AI 研究的标准基准。通过上述官方链接即可获取全部资源并开始实验。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!