- 什么是 MVS 数据集
多视图立体(Multi‑View Stereo,简称 MVS)旨在利用同一场景的多张不同视角的 RGB 图像,恢复出稠密的三维点云或网格模型。为评估和训练 MVS 算法,需要配套的 MVS 数据集——包括原始图像、相机内外参数、以及高精度的 ground‑truth(深度图、点云或结构光扫描模型)。 - 核心功能与价值
- 主要公开数据集(截至 2025)
| 数据集 | 发布机构 | 场景数量 / 类型 | 视角数 | 图像分辨率 | Ground‑truth 类型 | 特色 |
|---|---|---|---|---|---|---|
| DTU MVS 2014 | 丹麦技术大学(DTU) | 124 个物体/场景,室内 | 49(部分 64) | 1600×1200 | 结构光扫描点云、深度图 | 视角、光照多样,提供完整相机标定 |
| Tanks & Temples | ETH Zürich | 8 组室外场景(真实)+ 8 组合成 | 20‑100+ | 1920×1080 以上 | 高精度激光扫描点云 | 真实城市/建筑,挑战遮挡与纹理弱区 |
| ETH3D | ETH Zürich | 36 组室内外,室内 20 场,室外 16 场 | 20‑80 | 1920×1080 | 结构光/激光点云 | 包含稀疏与稠密两类基准 |
| BlendedMVS | 香港科技大学等 | 17 000+ 高分辨率图像,覆盖城市、建筑、雕塑等 | 5‑30(每场) | 3000×2000 以上 | 渲染得到的深度图 + 真实纹理 mesh | 通过渲染‑混合方式生成大规模、泛化性强的训练集 |
| MegaMVS (2024) | 多机构合作 | 约 10 000 张图像,覆盖大范围户外场景 | 30‑120 | 4K 级 | 激光扫描点云 | 侧重大尺度城市建模(最新公开数据) |
| 其他 | 如 Middlebury、EPFL、KITTI 等 | 主要用于立体匹配或深度估计,亦可用于 MVS 预研 | — | — | — | 为特定子任务提供补充数据 |
- 数据结构与组成要素
- 图像文件:通常为 JPEG/PNG,按场景/视角组织。
- 相机参数:包括内参(焦距、主点、畸变)和外参(旋转、平移),常以
txt、json或calib文件保存。 - Ground‑truth:
- 深度图(单视角对应)
- 点云(
.ply、.xyz) - 纹理网格(
.obj、.ply)
- 视图选择列表(可选):指示每张图像在多视图匹配中的参考视角集合,便于加速算法评估。
- 常用评估指标
- Accuracy(误差均值):预测深度/点云与 GT 的欧氏距离均值。
- Completeness(覆盖率):GT 点云被预测点覆盖的比例。
- F‑score:在给定阈值下的调和指标,兼顾精度与完整度。
- 运行时间 / 内存占用:用于衡量算法的实际可用性。
- 使用流程(典型)
- 最新趋势(2023‑2025)
总结
MVS 数据集是多视图立体研究的基石,提供了从图像采集、相机标定到高精度三维真值的完整链路。经典的 DTU、Tanks & Temples、ETH3D 为算法基准奠定了标准;而 BlendedMVS、MegaMVS 等大规模、场景多样化的数据集则推动了深度学习模型的泛化与实用化。研究者在使用时应关注数据的分辨率、视角覆盖、标定精度以及评估指标的统一,以确保实验结果的可比性和可靠性。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!