边界框(bounding box)
在检测任务中,我们需要同时预测物体的类别和位置,因此需要引入一些跟位置相关的概念。通常使用边界框(bounding box,bbox)来表示物体的位置,边界框是正好能包含物体的矩形框。
在目标检测任务中,边界框(bounding box,bbox)是一个非常重要的概念,用于表示图像中目标物体的位置和大小。边界框通常是一个矩形,其四个参数定义了它在图像中的位置:
- (x, y):边界框左上角的坐标(通常是相对于图像左上角的像素位置)。
- width:边界框的宽度(以像素为单位)。
- height:边界框的高度(以像素为单位)。
有时,为了更便于计算,也会使用以下形式来表示边界框:
(x_min, y_min, x_max, y_max):这里 (x_min, y_min) 是边界框左上角的坐标,而 (x_max, y_max) 是右下角的坐标。
在目标检测任务中,模型不仅需要预测图像中是否存在某个类别的物体,还需要预测这些物体的边界框坐标。这通常是通过回归问题来完成的,即模型输出的是边界框的坐标值,这些坐标值会与真实边界框(ground truth bounding box)的坐标值进行比较,以计算损失并更新模型的参数。
此外,为了评估目标检测模型的性能,还需要使用各种指标,如交并比(Intersection over Union,IoU)来度量预测边界框与真实边界框之间的重叠程度。
IoU 是预测边界框与真实边界框交集区域与并集区域的比例,通常用于判断预测是否正确(例如,当 IoU 大于某个阈值时,认为预测是正确的)。
如 图1 所示,图中3个人分别对应3个边界框。
图1 边界框
通常表示边界框的位置有两种方式:
- 即 ( x 1 , y 1 , x 2 , y 2 ) (x_1, y_1, x_2, y_2) (x1,y1,x2,y2),其中 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)是矩形框左上角的坐标, ( x 2 , y 2 ) (x_2, y_2) (x2,y2)是矩形框右下角的坐标。图1 中3个红色矩形框用 x y x y xyxy xyxy格式表示如下:
- 左: ( 40.93 , 141.1 , 226.99 , 515.73 )