什么是单目SLAM

单目 SLAM(Monocular SLAM)概述

1. 什么是单目 SLAM

单目 SLAM 是指仅使用一台普通摄像头(单目相机)作为唯一外部传感器,实现 同步定位与地图构建Simultaneous Localization and Mapping)的技术。相机捕获的连续图像序列被视为二维投影,需要在此基础上恢复出三维环境结构并估计相机的运动轨迹。由于只保留了二维信息,深度(尺度)信息不可直接获取,这也是单目 SLAM 与双目、RGB‑D SLAM 的根本区别。


2. 基本原理与系统框架

典型的单目 SLAM 系统可划分为 前端(Front‑end) 与 后端(Back‑end) 两大模块,整体流程如图所示(文字版):

  1. 图像采集:相机实时获取帧并送入前端。
  2. 特征提取 / 直接光度:前端先检测特征点(如 ORB、FAST、SIFT 等)或直接利用像素光度信息。
  3. 位姿估计:通过两帧特征匹配、极线几何或光度误差最小化,得到相机的相对姿态。
  4. 关键帧选取:为降低计算量,系统会挑选信息量大的关键帧进行后续处理。
  5. 地图创建:后端利用关键帧之间的对应关系进行三角测量或逆深度估计,生成稀疏/半稠密/稠密的三维点云
  6. 全局优化:采用图优化(如 g2o、Ceres)或束调整,对所有关键帧和地图点进行一次性最小化误差,提升整体一致性。
  7. 闭环检测 & 重定位:通过词袋模型或深度特征识别已访问过的场景,实现闭环校正和失踪后重新定位。
  8. 输出:得到相机轨迹和环境地图,可供导航、增强现实等上层应用使用。

3. 前端核心技术

步骤 主要方法 代表算法
特征点检测 FAST、ORB、SIFT、SURF、Harris、Shi‑Tomasi ORB‑SLAM、PTAM
特征匹配 暴力匹配、FLANN光流法 PTAM、MonoSLAM
位姿求解 8‑点/5‑点本征矩阵求解、PnP、直接光度误差最小化(DSO、LSD‑SLAM) DSO、LSD‑SLAM
关键帧管理 关键帧插入、冗余删除、基于视角变化的阈值 ORB‑SLAM2

4. 后端核心技术

  1. 地图点三角化:在已知相机内参和两帧姿态的前提下,通过几何三角测量恢复 3D 点坐标。
  2. 图优化:构建姿态‑点的因子图,使用 g2o、Ceres 等求解器进行全局最小化。
  3. 闭环检测:基于 Bag‑of‑Words、深度特征或语义信息判断是否回到已建地图的区域。
  4. 尺度恢复:单目系统只能得到相对尺度,常通过多视角初始化、IMU 融合或深度学习估计来恢复真实尺度。

5. 代表性单目 SLAM 系统

系统 关键特征 适用场景
MonoSLAM(EKF) 基于扩展卡尔曼滤波的稀疏特征点地图 早期研究、教学
PTAM(Keyframe‑based) 关键帧分离跟踪与建图,实时性能好 小型手持设备
ORB‑SLAM / ORB‑SLAM2 ORB 特征 + 词袋闭环 + g2o 优化 大规模室内外、机器人
LSD‑SLAM 半稠密直接法,利用像素梯度 纹理丰富场景
DSO(Direct Sparse Odometry) 直接光度误差,稀疏点云 高帧率、低纹理
VINS‑Mono 单目+IMU 融合,基于非线性优化 移动机器人、AR
NeRF‑based SLAM(如 3D Gaussian Splatting 神经辐射场表示,提升密集重建质量 前沿研究

6. 单目 SLAM 面临的主要挑战

  1. 尺度歧义:单张图像无法直接获取深度,导致地图尺度只能相对,易产生尺度漂移。
  2. 初始化困难:需要足够视差的多帧才能完成三角化,纯旋转或低纹理场景会导致初始化失败。
  3. 纯旋转运动:缺少平移信息时,特征匹配难以恢复深度,系统可能失效。
  4. 光照变化与运动模糊:特征点检测对光照敏感,直接法对曝光不均匀也会受影响。
  5. 实时性与计算资源:全局优化和闭环检测在大规模场景下计算量大,需要高效实现或硬件加速。

7. 典型应用场景

  • 移动机器人与无人车:利用单目摄像头实现低成本定位与建图。
  • 增强现实(AR):在手机或头显上实时估计相机姿态,叠加虚拟内容。
  • 无人机导航:轻量化相机适合飞行平台的姿态估计
  • 医学内窥镜:单目 SLAM 用于手术机器人在狭小腔道内的位姿跟踪与稀疏地图构建。
  • 农业机器人:在动态农田环境中进行定位与半稠密重建。

8. 发展趋势与前沿研究

  1. 深度学习融合:利用单张图像的深度估计网络(如 Monodepth、MiDaS)为 SLAM 提供尺度先验,提升鲁棒性
  2. 神经场表示:将 NeRF / 3D Gaussian Splatting 引入 SLAM,实现更高质量的密集重建与实时渲染。
  3. 多传感器融合:将 IMU、轮速计、GPS 等与单目视觉紧耦合,形成 VIO(Visual‑Inertial Odometry)系统,显著降低尺度漂移。
  4. 语义 SLAM:在地图中加入语义标签(物体、道路等),支持更高级的任务规划与人机交互。
  5. 轻量化实现:针对移动端和嵌入式平台,采用模型压缩、硬件加速(GPU/FPGA)实现实时运行。

小结

单目 SLAM 通过仅使用一台摄像头,实现了成本低、结构简洁的同步定位与地图构建。其核心流程包括特征(或光度)提取、位姿估计、关键帧管理、三角化建图、全局优化以及闭环检测。尽管面临尺度歧义、初始化困难等挑战,近年来随着深度学习、神经辐射场以及多传感器融合技术的快速发展,单目 SLAM 正在向更高精度、更强鲁棒性和更丰富语义的方向演进,已在机器人、AR、无人机、医学等多个领域得到广泛应用。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!