目标检测

Object Detection

目标检测是计算机视觉领域的一项核心任务,它比图像分类更进了一步。目标检测的目标不仅是识别出图像中有什么物体(分类),还要同时确定这些物体在图像中的位置(定位)。通常,位置信息会以边界框 (Bounding Box) 的形式输出。

核心任务

一个目标检测算法需要对一张输入的图像,输出一个列表,列表中的每一项包含:

  1. 类别标签 (Class Label): 识别出的物体属于哪个类别(如:“人”、“车”、“猫”)。
  2. 边界框 (Bounding Box): 一个矩形框,通常由左上角坐标 (x,y) 和框的宽高 (w,h) 来定义,用于精确地框出物体的位置。
  3. 置信度分数 (Confidence Score): 一个表示该检测结果有多大把握是正确的概率值。

两大主流技术路线

现代基于深度学习的目标检测算法主要分为两大流派:

1. 两阶段检测器 (Two-Stage Detectors)

这类方法将检测过程分为两个独立的阶段,追求更高的检测精度。

  1. 阶段一:候选区域生成 (Region Proposal): 首先通过一个专门的算法(如Selective Search或Region Proposal Network)在图像上快速地生成数千个可能包含物体的候选区域(Region of Interest, RoI)。
  2. 阶段二:分类与回归 (Classification and Regression): 对每个候选区域,使用一个卷积神经网络进行精细的分类,并对边界框的位置进行微调(回归)。

2. 单阶段检测器 (One-Stage Detectors)

这类方法摒弃了候选区域生成阶段,直接将目标检测视为一个统一的回归问题,在整个图像上一次性地预测出所有物体的类别和位置。

关键概念与评估

核心组件

核心评估指标