论文全名：Good Features to Correlate for Visual Tracking

论文摘自IEEE TIP 2018，由Erhan Gundogdu（Github网址）和A. Aydın Alatan撰写。

摘要

作者提出：基于相关滤波（CFB）跟踪的深度全卷积模型，提出了反向传播算法。

效果：减轻了对训练分类网络的依赖性。

1 前言

前期的跟踪方法：（1）稀疏生成方法：L1APG等；（2）支持向量机：Structured SVM；（3）深度学习：MDNet，Deeptrack；（4）继MOSSE之后，算法使用VGG-M预训练网络（在ImageNet训练）中的卷积层+CF，其计算复杂度较高。

作者提出：学习完全卷积神经网络的问题，为相关运算生成有用的特征映射。

框架：一个全卷积网络。将同一对象的两个图像块送入训练，从top层获得图像块的特征图后，在template块计算相关滤波器，使得估计值与期望响应损失值最小（通过误差的反向传播和随机梯度下降过程）。

贡献：

•对相关滤波器损失函数，提出训练全卷积深度网络框架与反向传播网络。

•在最后一层网络（通道数较多）后，加入一个anxiliary（辅助）层（目的：使通道减少）。

•网络训练中集成了DSST、SAMF和C-COT。

3节：CFB公式，4节:特征学习方法，5节：实验及细节。6节：未来展望。

2 前期工作

【1】判别法：在初始帧的感兴趣区域提取正负样本，用分类器模型（分类为对象或背景）进行训练，即查找分类器最高分数的候选区域作为目标位置。

算法：基于Haar-like特征与LBP特征训练的MIL与OAB，基于SVM的Struck SVM与DLSSVM，基于深度学习分类方法的MDNet与Deeptrack。

特点：必须在每个候选位置评估分类器，计算复杂度较高。

【2】生成法：在初始帧建立对象和背景（可选性）的外观模型，然后将预测的目标（与之前帧外观模型最相似的）放入模型更新中。

算法：IVT（在线子空间学习法），KMS（根据目标亮度直方图表示模型）。稀疏方法的L1与L1APG、MTT（对不同样本也是稀疏的），基于非负矩阵分解的CONMF。

特点：（与判别法相同）必须在每个候选位置评估分类器，计算复杂度较高。

【3】相关滤波法：最小化期望响应与滤波器和对象块的循环相关之间的平方误差之和，并利用快速傅里叶变换的卷积定理，在频域中减少计算复杂度。

算法：MOSSE、DSST（基于MOSSE加入HOG与尺度转换）、KCF（加入multi-channel）、KCFDP、SKCF、RPAC（基于KCF的尺度评估等方法）、CFLB、SRDCF（引入空间正则化）、CSR-DCF（引入空间约束）、CF+AT（解决循环移位的训练块）、Staple（加入颜色特征以区分目标与背景）、CF+CA（考虑目标周围的背景）。

【4】相关滤波+CNN：

算法：HCFT（加入AlexNet/VGG-VD网络）、DeepSRDCF（VGG-M的conv-5）（使用预训练的深CNN模型作为特征映射进行相关映射）、C-COT（提出连续域的相关滤波器）、CFNet、DCFNet（训练全卷积网络用于相关滤波跟踪）。

特点：（1）CFCF提出multiple channel相关滤波损失函数，CFNet提出逐元素逻辑损失函数；（2）CFNet与DCFNet建立在轻量级架构，而CFCF的网络模型更大，性能更好；（3）CFCF中的反向传播公式基于傅里叶域中的广义链法则与实信号的共轭对称性，而CFNet的反向传播基于差分伴随；

【5】CNN架构：

算法：SINT+（训练Siamese网络，输出目标的各种相似特征）、GOTURN（在CaffeNet上离线训练侯选快中目标位置）、Siamese-fc（将前一帧的目标与当前帧的候选块作卷积相关操作）、RTT（使用RNN对目标与背景进行建模估计置信度图）、SANet（对物体结构进行空间建模）、RATM（对RNN建模直接预测目标运动）

特点：SINT+对候选块的选择计算复杂度高；GOTURN候选评估计算复杂度低；

【6】组合法：

算法：RPAC（在目标不同部分运行多个相关跟踪算法）、POSSE（基于MOSSE的目标检测）、RPT（基于KCF）、MEEM（基于SVM判别器的熵最小化准则算法）、VTS（Markov Chain Monte Carlo采样法）、Co-tracking（混合特征类型的各种跟踪器组合）、SDC+SGM、文献[60]（生成和判别方法的混合方法）、TCNN（基于MDNet的树结构方法）。

3 回顾相关滤波公式（DSST+C-COT）

4 特征学习框架

【1】准备工作

（1）输入：离散变量（三元组），其中，为以目标为中心的temple块，为不以目标为中心的测试块，是期望响应（与中目标正确偏移的峰值），其中，表示图像块的第个分量向左循环移位个的结果。

（2）集成在相关滤波中图像块的特征生成函数具有移位不变性，即若满足与，那么，其中是二维离散信号。

（3）记：为共轭，为对应元素乘积。

【2】训练网络参数θ（随机梯度下降（SGD））

对于d维特征图，对于N个三元组：

第一步：分别将测试块与temple块送入全卷积网络，得到与；

第二步：将输出与期望相应送入滤波器更新【与DSST中滤波器更新相同（）】得到最小值：。

第三步：将第二步得到的值与做卷积（记），计算其与期望相应的2-范数，损失函数为【与DSST损失函数定义不同，作者删去了正则项】。

第四步：。

目的：训练θ使损失函数最小。

【2-1】梯度计算

方法：多变量链式法则，

第一步：通过上图的分析，变量θ可以写做经过中间变量x与y后计算出的损失，有：，其中，为特征通道。

第二步：【求解】对于第一步式中第二个变量，对y（经过中间变量h），有：，其中，为特征通道。

第三步：【求解】由式（2）的卷积定义，记，那么式（9）（总损失函数）可以写成：，对于第m个样本对，满足： $\Leftrightarrow$ ，有：。那么。

第四步，【求解】，同理，由第三步的卷积方法，满足 $\Leftrightarrow$ ，有，那么。

第五步，【求解】引入离散傅里叶变换，即将其在傅里叶域（频域）中分析，有，其中， $F^{-1}=F^{H}$ 。

第六步，【求解】根据式（3），有 $H^{k}=\frac{Y^{k}\odot \hat{G}^{*}}{\sum_{m=1}^{d}Y^{m}\odot Y^{m*}+\lambda }$ ，令其分母，由于各变量都是独立的，故有：。其中 $I(k==l)=\left\{\begin{matrix} I &(k=l) \\ 0&(k\neq l) \end{matrix}\right.$ ，（循环反转矩阵）。