SCTracker 跟踪论文阅读笔记
SCTracker: Multi-object tracking with shape and confidence constraints
论文链接 (未开源状态)
论文主要更新点围绕shape constraint and confidence两点来展开:
- 首先论证在跟踪匹配的过程中D-box(检测框)与T-box(预测框)需要有一定的形状约束来决定最后匹配的cost matrix,避免特殊情况下的iou匹配不准确的因素。
- 后根据检测置信度得分对KF在某些遮挡或者其他干扰因素造成检测得分降低后的自适应修改,对测量噪声协方差噪声的敏感程度由检测得分来决定,这一点与Strong-sort中论文类似,可看之前的文章介绍 BoT-SORT与Strong-SORT论文对比及思考总结 ,不过SCTracker对噪声协方差的公式也有点差别,但总体不大,看下文分析,以及利用检测置信度在更新的基础上利用卡尔曼滤波对原状态向量m更新为新状态向量m0时状态向量的速度分量进行校正。
1、跟踪方法的pipeline处理流程及论证shape Iou:
1.1、pipeline
根据这个pipeline,在此基础上将改进的点一一嵌入,然后做相关对比实验。
上面图中的pipeline是一个最基础的类似sort的跟踪处理方法,而且作者提到,实验使用ByteTrack作为基准的对比对象,而ByteTrack论文也仅仅是在sort的基础上做了改进,最主要是有一个强检出的检测器YOLOX,而此篇论文检测器与ByteTrack一样,做消融实验才能有对比性。
1.2、提出Shape Iou
上图为作者论证Iou的不可行性,两个box的交集相同,并且计算出来的iou值也相同,对于这种情况普通的iou计算不能区分匹配度,在此作者提出Shape Iou,猜想这个也是得到训练检测模型中的iou损失函数的启发,类似GIou方法 ,普通iou方法确实对一些形状变化但是iou值却相同的box不能很好的做区分,故有了论文的更新点。
2、论文更新改进点
i1:shape constraint 在原始计算iou cost
matrix的基础上添加高度及区域限制,高度代表的是D-box的H,T-box的H,以及两者外界矩形的H。
i2:confidence 用来对测量噪声协方差做自适应操作,以及对更新m的速度项做对应的校正。
(一)shape constraint
普通iou计算方法:
对应计算的iou距离表达公式为:
而shape iou在iou的基础上加了两项限制条件:
Ph代表的是高度上做一定的限制,Ps代表的是区域上做限制,而对应的Ph和Ps的公式计算为:
ha为a-box的H,hb为b-box的H,hu为a-box与b-box的最小外接矩形的H;
Sa、Sb、Su类似上面,只不过对应的是区域面积, 为一个固定的值,论文的经验值设置为,以保证限制项的有效性。
公式列完,大概的改动就一目了然了,而且公式也很简单,总体带来的收益也有所提升,看下文的实验部分。
(二)confidence
ii1、 首先检测置信值用来自适应噪声协方差这一部分在它之前的论文Strong-Sort中已经提到过,而此篇论文在公式上做了点手脚,但大致无太大差别,看公式吧:
Strong-Sort :
SCTracker :
Strong-Sort中的Ck代表检测置信度,SCTracker中的score代表的也是检测置信度,是不是仅仅动了点手脚,大致意思一样,不过可能还有另外一层意思是我没有猜到的,也可能是作者认为不管检测得分有多高多可信,在实际的应用中协方差噪声这个矩阵都是有一定的作用的,所以在检测置信度的基础上做了部分削减,不过这也是我的猜测,不一定对,有懂的小伙伴欢迎交流。
ii2、 其次,将检测置信度也用到了更新项m的速度校正上,这一点感觉还是有一定道理的,既然对协方差噪声都做了一定的自适应,对于更新项的m确实也应该做一定的校正:
注意:为原始输入的m作为需要更新的项的后四维速度项,而为更新m的后四维速度项,根据此公式可以知道如果检测置信度高,则原始m项的权重小,依赖更新的m值,有点类似二分类问题的交叉熵损失函数了,感觉很多都是现有经验的迁移一样,有意思哈。
3、实验部分
作者将ByteTrack作为baseline进行对比,总体略有提升,虽说提升的点不是很多,但是总体的跟踪效果表现从指标上看确实是有改善的,不过还得自己实际验证。
4、总结
作者提出的这两个更新点对跟踪上有一定的提升,改动点比较简单,根据公式做对应的修改,代码都不需要改很多,可以尝试下,shape-iou其实倒是感觉用处不大,类似reid部分特征匹配时加的马氏距离限制,shape-iou在一定程度上会有点改善,但不过看主要的跟踪场景,KF预测部分修改可做相应尝试,使用检测置信度确实是一种可行的方案,毕竟检出得分高的代表着他确实是清晰目标,噪声对应小,而得分低意味着可能被遮挡或者模糊等情况,有做过尝试的小伙伴欢迎交流,谢谢!!!