目标检测回归损失函数

1、Smooth L1 Loss
2、 IoU Loss
3、 GIoU Loss （Generalized-IoU Loss）
4、 DIoU Loss （Distance-IoU Loss）
5、 CIoU Loss （Complete-IoU Loss）
6、总结
7、代码

目标检测任务的损失函数由 Classificition Loss 和 Bounding Box Regeression Loss 两部分构成。

本文介绍目标检测任务中近几年来Bounding Box Regression Loss Function的演进过程，其演进路线是：
Smooth L1 Loss $\rightarrow$ IoU Loss $\rightarrow$ IoU Loss $\rightarrow$ GIoU Loss $\rightarrow$ DIoU Loss $\rightarrow$ CIoU Loss

本文亦按照此路线进行讲解。

1、Smooth L1 Loss

由微软rgb大神提出，Fast RCNN论文提出该方法

1） $x$ 表示模型的预测值， $y$ 表示真实值， $z$ 表示预测值与真实值之间的差异： $z = x - y$

常用的 L1 loss、L2 Loss 和 smooth L1 loss 定义分别为：
$\quad$
$\quad \quad$ $L_{L1}(x,y) = |x - y| = |z|$
$\quad$
$\quad \quad$ $L_{L2}(x,y) = 0.5(x - y)^2 =0.5z^2$
$\quad$
$\quad \quad$ $L_{smoothL1}(x,y)=\begin{cases} 0.5(x-y)^2 = 0.5z^2, & \text{if } |x-y|<1 \\ |x-y|-0.5= |z|-0.5, & \text{otherwise} \end{cases}$

$\quad$
在这里插入图片描述

$\quad$
上述的 3个损失函数对 z 的导数分别为：
$\quad$
$\quad \quad$ $\frac{\partial{L_{L1}(x,y)}}{\partial z} = \begin{cases} 1, & \text{if } z \geq1 \\ -1, & \text{otherwise} \end{cases}$
$\quad$
$\quad \quad$ $\frac{\partial L_{L2}(x,y)}{\partial z} =z$
$\quad$
$\quad \quad$ $\frac{\partial L_{smoothL1}(x,y)}{\partial z} =\begin{cases} z, & \text{if } |x-y|<1 \\ \pm1, & \text{otherwise} \end{cases}$

从损失函数对x的导数可知：

$L 1$ 损失函数对 $z$ 的导数为常数，在训练后期， $z$ 很小时，如果 learning rate 不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。
$L 2$ 损失函数对 $z$ 的导数等于 $z$ ，在训练初期， $z$ 值很大时，使得导数也非常大，在训练初期不稳定。
$smooth_{L1}$ 完美的避开了 $L 1$ 和 $L 2$ 损失的缺点。

2）实际目标检测框回归任务中的损失 loss 为： $L_{loc(t, v)} = \sum_{i \in (x, y, w, h)}smooth_{L1}(t_i - v_i)$
即，分别求 x, y, w, h 的 loss，然后相加作为 Bounding Box Regression Loss

$v = (v_x, v_y,v_w, v_h)$ ：表示 gt_bbox 的坐标，
$t = (t_x, t_y, t_w, t_h)$ ：表示 predict_bbox 的坐标

3）缺点

上面的三种Loss用于计算目标检测的Bounding Box Loss时，独立的求出x, y, w, h 的 Loss，然后进行相加得到最终的Bounding Box Loss，这种做法的假设是 x, y, w, h 是相互独立的，实际是有一定相关性的

这就引出了以下的解决方案，使用 IoU 来计算 loss 。

2、 IoU Loss

由旷视提出，发表于2016 ACM

若在回归 bbox坐标时，使用4个坐标点的loss之和，而评价模型时，使用 IoU，会导致不一致性。因为 L1或者L2 Loss相同的框，IoU 很可能不一样。如下图所示，图a. L2 loss 相同，IoU不相同；图b. L1 loss 相同，IoU不相同
通过4个点回归坐标框的方式是假设4个坐标点是相互独立的，没有考虑其相关性，实际4个坐标点具有一定的相关性
基于L1和L2的距离的loss对于尺度不具有不变性

在这里插入图片描述
2）基于此提出IoU Loss, 其将4个点构成的box看成一个整体进行回归：

在这里插入图片描述

3、 GIoU Loss （Generalized-IoU Loss）

由斯坦福学者提出，发表于CVPR2019

1） IoU Loss 有2个缺点：

当预测框和目标框不相交时， $I o U (A, B) = 0$ 时，不能反映 A, B 距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。 $Loss=-ln^{IoU}, \quad\quad \frac{\partial loss}{\partial IoU} = (-ln^{IoU})' = -\frac{1}{IoU}$
IoU值不能反映两个框是如何相交的：即使两个框的 $I o U$ 值是相同的，其相交方式也可能很不一样。

在这里插入图片描述

2） GIoU ：Generalized-IoU Loss
在这里插入图片描述

最后，损失可以用下面的公式来计算： $L_{GIoU} = 1 - GIoU$

$\quad$

3）C 的面积的求解
假设有两个任意的 bbox A和B，我们要找到一个最小的封闭形状C，让C可以将A和B包围在里面。

$A = (x_{min}^A, x_{max}^A, y_{min}^A, y_{max}^A)$

$B = (x_{min}^B, x_{max}^B, y_{min}^B, y_{max}^B)$

则， C 的坐标为：

$x_{min}^C = min(x_{min}^A, x_{min}^B), \quad x_{max}^C = max(x_{max}^A, x_{max}^B)$

$y_{min}^C = min(y_{min}^A, y_{min}^B), \quad y_{max}^C = max(y_{max}^A, y_{max}^B)$

C 的面积为：
$Area^C = (x_{max}^C - x_{min}^C) * (y_{max}^C - y_{min}^C)$

$\quad$

4）GIoU 相比于 IoU 有如下性质：

和原始的 loU 类似，GIoU具有尺度不变性（ GloU 对物体的尺度大小不敏感，因为使用的是比值的原因）
$\frac{C - (A \cup B)}{C} <1$ ， $L_{GIoU} = 1 - GIoU$ ，所以 $- 1 < G I O U <= 1$
- 当 A 和 B 完全重合时：IoU = GIoU = 1
- 当 A，B 不重合时， $I o U = 0 ， G I o U$ 趋近于 -1，或者说当A，B 不重合且距离无限远时， $G I o U = - 1$

GIoU Loss 仍然存在不足：当目标框完全包裹预测框的时候，IoU 和 GIoU 的值一样，此情况下 GIoU 退化为 IoU, 无法区分其相对位置关系。
在这里插入图片描述
基于IoU和GIoU存在的问题，有两个方向值得思考：

第一：直接最小化预测框与目标框之间的归一化距离是否可行，以达到更快的收敛速度。
第二：如何使回归在与目标框有重叠甚至包含时更准确、更快。

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。

DIoU Loss：考虑了重叠面积和中心点距离，相对于GIoU Loss收敛速度更快，但没有考虑到长宽比；
CIoU Loss，以上三个因素都考虑到了，其收敛的精度更高。

4、 DIoU Loss （Distance-IoU Loss）

发表在AAAI 2020

通常基于 IoU-based 的 loss 可以定义为 $L =1- IoU + R(B, B^{gt})$ ，其中 $R(B, B^{gt})$ 定义为预测框 $B$ 和目标框 $B^{gt}$ 的惩罚项。
$D I o U$ 中的惩罚项表示为 $R_{DIoU} = \frac{\rho ^2(b, b^{gt})}{c^2}$ ，其中 $b$ 和 $b^{gt}$ 分别表示 B$ 和 $B^{gt}$ 的中心点， $\rho$ 表示欧式距离，C表示 $B$ 和 $B^{gt}$ 的最小外界矩形的对角线距离，如下图所示。可以将DIoU替换 IoU 用于 NMS算法当中，也即论文提出的DIoU-NMS,实验结果表明有一定的提升。
• DloU Loss function 定义为： $L_{DIoU} = 1- IoU + \frac{\rho ^2(b, b^{gt})}{c^2}$

在这里插入图片描述
DIoU的性质：

尺度不变性
当两个框完全重合时， $L_{IoU} = L_{GIoU} = L_{DIoU} = 0$
当两个框不相交时
DIoU Loss 可以直接优化 2个框直接的距离，比 GIoU Loss 收敛速度更快
对于目标框包裹预测框的这种情况，DIoU Loss 可以收敛的很快，而 GIoU Loss此时退化为IoU Loss收敛速度较慢

5、 CIoU Loss （Complete-IoU Loss）

1）CIoU的惩罚项是在DIoU的惩罚项基础上加了一个影响因子 $\alpha v$ , 这个因子把预测框长宽比拟合目标框的长宽比考虑进去。

$R_{CIoU} = \frac{\rho ^2(b, b^{gt})}{c^2} +\alpha v$ ，其中：

$\alpha$ 是用于做 trade-off 的参数， $\alpha = \frac{v}{(1-IoU)+v}$
$v$ 是用来衡量长宽比一致性的参数， $\frac{4}{\pi^2}(arctan \frac{w^{gt}}{h^{gt}} - arctan \frac{w}{h})^2$

CIoU Loss function的定义为: $L_{DIoU} = 1- IoU + \frac{\rho ^2(b, b^{gt})}{c^2} +\alpha v$

2）DIoU和CIoU的提升效果

在这里插入图片描述

6、总结

（1）Smooth L1 Loss

$\quad L_{smoothL1}(x,y)=\begin{cases} 0.5(\hat{y}-y)^2, & \text{if } |\hat{y}-y|<1 \\ |\hat{y}-y|-0.5, & \text{otherwise} \end{cases}$

（2）loU Loss : $Loss=-ln^{IoU}$

（3）GloU Loss : $L_{GIoU} = 1 - IoU + \frac{C - (A \cap B)}{|C|}$

（4）DloU Loss： $L_{DIoU} = 1- IoU + \frac{\rho ^2(b, b^{gt})}{c^2}$

（5）CIoU Loss ： $L_{DIoU} = 1- IoU + \frac{\rho ^2(b, b^{gt})}{c^2} +\alpha v$

7、代码

def bbox_iou(box1, box2, x1y1x2y2=True, GIoU=False, DIoU=False, CIoU=False):# Returns the IoU of box1 to box2. box1 is 4, box2 is nx4box2 = box2.t()# Get the coordinates of bounding boxesif x1y1x2y2:  # x1, y1, x2, y2 = box1b1_x1, b1_y1, b1_x2, b1_y2 = box1[0], box1[1], box1[2], box1[3]b2_x1, b2_y1, b2_x2, b2_y2 = box2[0], box2[1], box2[2], box2[3]else:  # transform from xywh to xyxyb1_x1, b1_x2 = box1[0] - box1[2] / 2, box1[0] + box1[2] / 2b1_y1, b1_y2 = box1[1] - box1[3] / 2, box1[1] + box1[3] / 2b2_x1, b2_x2 = box2[0] - box2[2] / 2, box2[0] + box2[2] / 2b2_y1, b2_y2 = box2[1] - box2[3] / 2, box2[1] + box2[3] / 2# Intersection areainter = (torch.min(b1_x2, b2_x2) - torch.max(b1_x1, b2_x1)).clamp(0) * \(torch.min(b1_y2, b2_y2) - torch.max(b1_y1, b2_y1)).clamp(0)# Union Areaw1, h1 = b1_x2 - b1_x1, b1_y2 - b1_y1w2, h2 = b2_x2 - b2_x1, b2_y2 - b2_y1union = (w1 * h1 + 1e-16) + w2 * h2 - interiou = inter / union  # iouif GIoU or DIoU or CIoU:cw = torch.max(b1_x2, b2_x2) - torch.min(b1_x1, b2_x1)  # convex (smallest enclosing box) widthch = torch.max(b1_y2, b2_y2) - torch.min(b1_y1, b2_y1)  # convex heightif GIoU:  # Generalized IoU https://arxiv.org/pdf/1902.09630.pdfc_area = cw * ch + 1e-16  # convex areareturn iou - (c_area - union) / c_area  # GIoUif DIoU or CIoU:  # Distance or Complete IoU https://arxiv.org/abs/1911.08287v1# convex diagonal squaredc2 = cw ** 2 + ch ** 2 + 1e-16# centerpoint distance squaredrho2 = ((b2_x1 + b2_x2) - (b1_x1 + b1_x2)) ** 2 / 4 + ((b2_y1 + b2_y2) - (b1_y1 + b1_y2)) ** 2 / 4if DIoU:return iou - rho2 / c2  # DIoUelif CIoU:  # https://github.com/Zzh-tju/DIoU-SSD-pytorch/blob/master/utils/box/box_utils.py#L47v = (4 / math.pi ** 2) * torch.pow(torch.atan(w2 / h2) - torch.atan(w1 / h1), 2)with torch.no_grad():alpha = v / (1 - iou + v)return iou - (rho2 / c2 + v * alpha)  # CIoUreturn iou