什么是候选框(bounding boxes)

AI解读 2小时前 硕雀
2 0

候选框(Bounding Box)概述

  1. 基本定义
    候选框是计算机视觉中用于标记图像或视频中可能包含目标物体的最小矩形区域。它通常由四个坐标(左上角 (x_min, y_min) 与右下角 (x_max, y_max))或中心点+宽高 (x_center, y_center, w, h) 表示。在目标检测任务里,算法会先生成大量候选框,再对每个框进行分类和位置微调。
  2. 表示方式
    • 轴对齐矩形(Axis‑aligned Bounding Box):矩形边与图像坐标轴平行,最常用,适合大多数物体。
    • 旋转矩形(Rotated Bounding Box):在需要捕捉倾斜物体时使用,框体会随物体旋转。
      两者都可以用左上/右下坐标或中心点+宽高两种形式互相转换。
  3. 生成方法
    • 滑动窗口:在不同尺度、位置上固定大小窗口遍历整幅图像,生成候选框。
    • 区域建议(Region Proposal‍:如 Selective SearchEdgeBoxes 等算法,根据图像的边缘、颜色相似性等信息快速产生高质量候选框。
    • 锚框(Anchor Box)‍:在深度学习检测器(如 SSDYOLO 系列)中预设一组不同宽高比、尺度的框,网络预测每个锚框的偏移量和置信度,从而得到候选框。
    • 学习式生成:如 RPN(Region Proposal Network)在 Faster RCNN 中直接从特征图学习生成候选框。
  4. 在检测流程中的作用
    • 定位:候选框提供了目标的大致位置,后续的分类网络只需在框内细化特征。
    • 过滤:通过置信度阈值和非极大值抑制NMS‍去除高度重叠的框,保留最有可能的检测结果。
    • 评估:检测结果的质量常用交并比IoU‍衡量,即预测框与真实框的交集面积除以并集面积。IoU 越高,定位越准确。
  5. 应用场景
    • 自动驾驶:检测行人、车辆、交通标志等。
    • 安防监控:实时定位异常行为或入侵目标。
    • 医疗影像:标注病灶区域,辅助诊断。
    • 零售与电商:商品检测、库存盘点。
    • 农业:作物、病虫害定位。
  6. 优势与局限
    • 优势:实现简单、计算高效,能够快速提供目标的大致位置,是多数检测模型的基础。
    • 局限:只能表示矩形形状,难以精确覆盖非矩形或高度重叠的目标;在密集场景下容易产生大量冗余框,需要后处理(如 NMS)来抑制误检。

小结:候选框是目标检测系统的核心“猜测”步骤,通过矩形坐标快速定位潜在目标,为后续的分类、回归和精细分割提供基础。随着深度学习技术的发展,生成候选框的方式从传统的滑动窗口演进到基于锚框和学习式的区域建议,使得检测既保持实时性,又提升了定位精度。

来源:www.aiug.cn
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!