什么是视差估计(Disparity Estimation)

AI解读 2小时前 硕雀
2 0

视差估计Disparity Estimation)概述


1. 什么是视差估计

视差估计是立体视觉(Stereo Vision)系统的核心任务之一,指在一对已校正的左右图像中,寻找同一场景点在两幅图像上的对应像素位置差异(即视差),并据此生成稠密或稀疏的视差图。视差图可以直接转化为深度图,用于三维重建目标检测等上层任务。


2. 基本原理

  1. 对极几何约束:在平行式立体模型中,左右相机的光轴平行,对极线在图像上水平对齐,视差仅沿水平方向变化,使得匹配搜索可以限制在同一行上。
  2. 视差‑深度转换:通过三角测量公式 将视差映射为真实深度,基线越长、视差越大,深度估计越精确。

3. 视差估计的关键步骤

步骤 主要内容 常用技术
代价计算(Cost Computation) 对每个像素在左图和右图的可能匹配位置计算相似度(如 SAD、SSD、NCC、Census) 局部块匹配、卷积特征相似度
代价聚合(Cost Aggregation) 将局部代价在空间上进行平滑,抑制噪声并保留边缘 方向滤波、半全局匹配(SGM)
视差优化(Disparity Optimization) 代价体上寻找最小代价值,得到初始视差图 Winner‑Takes‑All (WTA)、图割、信念传播(BP)
后处理(Post‑Processing) 子像素插值、左右一致性检查、孔洞填充、平滑滤波等,提高精度和视觉质量 双向一致性、形态学滤波深度学习细化网络

4. 常见算法与技术路线

类别 代表算法 特点
传统局部匹配 块匹配(Block Matching)、基于代价体的 WTA 实现简单、实时性好,但对纹理弱、遮挡敏感
全局优化 图割(Graph Cuts)、信念传播(BP) 能全局考虑平滑约束,精度高,计算量大
半全局匹配(SGM) 采用多方向路径聚合代价,兼顾精度与效率 目前工业界和移动端的主流方案
基于机器学习 基于 MRF 的 MAP‑MRF 方法 将先验模型嵌入优化,提升遮挡处理能力
深度学习 端到端卷积网络(如 GC‑NetPSM‑Net)
基于 Transformer立体匹配网络
自动学习特征和代价聚合,已在 KITTI、Scene Flow 等基准上取得领先成绩;但对大规模标注数据依赖较大
特殊场景 宽视角图像的非线性映射视差估计(专利) 处理鱼眼或超广角摄像头的视差失真问题

5. 主要应用场景

  1. 自动驾驶:实时障碍物距离估计、道路三维重建。
  2. 增强/虚拟现实AR/VR‍:生成深度图用于场景融合与交互。
  3. 机器人导航:利用稠密深度感知实现路径规划与避障。
  4. 三维重建与测量:建筑、考古、医学影像等领域的高精度模型构建。
  5. 视频压缩3DHEVC/AVC 中的视差预测用于降低码率。

6. 发展趋势与挑战

趋势 说明
深度学习与传统方法融合 将 SGM 的代价聚合与卷积特征相结合,兼顾实时性与精度。
量化网络 为嵌入式平台(车载、移动端)设计高效的深度网络(如 MobileStereo)。
多模态融合 融合 LiDAR单目深度估计等多源信息,提高鲁棒性
遮挡与纹理弱区域处理 通过图模型或自监督学习提升在无纹理、强遮挡场景下的匹配质量。
大尺度、宽视角适配 针对鱼眼、全景摄像头的非线性视差映射方法正在专利和学术界探索。

7. 小结

视差估计是从双目图像对中恢复空间深度信息的关键技术,核心在于像素对应关系的精确匹配。它经历了从传统块匹配、全局优化到半全局匹配,再到深度学习端到端模型的演进。随着自动驾驶、AR/VR 等对实时高精度三维感知需求的提升,视差估计仍是计算机视觉研究与工业应用的热点方向。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!