1. 什么是视差估计
视差估计是立体视觉(Stereo Vision)系统的核心任务之一,指在一对已校正的左右图像中,寻找同一场景点在两幅图像上的对应像素位置差异(即视差),并据此生成稠密或稀疏的视差图。视差图可以直接转化为深度图,用于三维重建、目标检测等上层任务。
2. 基本原理
- 对极几何约束:在平行式立体模型中,左右相机的光轴平行,对极线在图像上水平对齐,视差仅沿水平方向变化,使得匹配搜索可以限制在同一行上。
- 视差‑深度转换:通过三角测量公式 将视差映射为真实深度,基线越长、视差越大,深度估计越精确。
3. 视差估计的关键步骤
| 步骤 | 主要内容 | 常用技术 |
|---|---|---|
| 代价计算(Cost Computation) | 对每个像素在左图和右图的可能匹配位置计算相似度(如 SAD、SSD、NCC、Census) | 局部块匹配、卷积特征相似度 |
| 代价聚合(Cost Aggregation) | 将局部代价在空间上进行平滑,抑制噪声并保留边缘 | 方向滤波、半全局匹配(SGM) |
| 视差优化(Disparity Optimization) | 在代价体上寻找最小代价值,得到初始视差图 | Winner‑Takes‑All (WTA)、图割、信念传播(BP) |
| 后处理(Post‑Processing) | 子像素插值、左右一致性检查、孔洞填充、平滑滤波等,提高精度和视觉质量 | 双向一致性、形态学滤波、深度学习细化网络 |
4. 常见算法与技术路线
| 类别 | 代表算法 | 特点 |
|---|---|---|
| 传统局部匹配 | 块匹配(Block Matching)、基于代价体的 WTA | 实现简单、实时性好,但对纹理弱、遮挡敏感 |
| 全局优化 | 图割(Graph Cuts)、信念传播(BP) | 能全局考虑平滑约束,精度高,计算量大 |
| 半全局匹配(SGM) | 采用多方向路径聚合代价,兼顾精度与效率 | 目前工业界和移动端的主流方案 |
| 基于机器学习 | 基于 MRF 的 MAP‑MRF 方法 | 将先验模型嵌入优化,提升遮挡处理能力 |
| 深度学习 | 端到端卷积网络(如 GC‑Net、PSM‑Net) 基于 Transformer 的立体匹配网络 |
自动学习特征和代价聚合,已在 KITTI、Scene Flow 等基准上取得领先成绩;但对大规模标注数据依赖较大 |
| 特殊场景 | 宽视角图像的非线性映射视差估计(专利) | 处理鱼眼或超广角摄像头的视差失真问题 |
5. 主要应用场景
- 自动驾驶:实时障碍物距离估计、道路三维重建。
- 增强/虚拟现实(AR/VR):生成深度图用于场景融合与交互。
- 机器人导航:利用稠密深度感知实现路径规划与避障。
- 三维重建与测量:建筑、考古、医学影像等领域的高精度模型构建。
- 视频压缩:3D‑HEVC/AVC 中的视差预测用于降低码率。
6. 发展趋势与挑战
| 趋势 | 说明 |
|---|---|
| 深度学习与传统方法融合 | 将 SGM 的代价聚合与卷积特征相结合,兼顾实时性与精度。 |
| 轻量化网络 | 为嵌入式平台(车载、移动端)设计高效的深度网络(如 MobileStereo)。 |
| 多模态融合 | 融合 LiDAR、单目深度估计等多源信息,提高鲁棒性。 |
| 遮挡与纹理弱区域处理 | 通过图模型或自监督学习提升在无纹理、强遮挡场景下的匹配质量。 |
| 大尺度、宽视角适配 | 针对鱼眼、全景摄像头的非线性视差映射方法正在专利和学术界探索。 |
7. 小结
视差估计是从双目图像对中恢复空间深度信息的关键技术,核心在于像素对应关系的精确匹配。它经历了从传统块匹配、全局优化到半全局匹配,再到深度学习端到端模型的演进。随着自动驾驶、AR/VR 等对实时高精度三维感知需求的提升,视差估计仍是计算机视觉研究与工业应用的热点方向。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!