StrongSORT
【摘要】
现有的MOT方法可以被分为tracking-by-detection和joint-detection-association。后者引起了更多的关注,但对于跟踪精度而言,前者仍是最优的解决方案。StrongSORT在DeepSORT的基础之上,更新了它的检测、嵌入和关联等多个方面,由此产生了StrongSORT追踪器,在MOT17和MOT20数据集上缺德了新的HOTA和IDF1记录。同时,作者还提出了两个轻量化且即插即用的算法去提升跟踪结果,分别是AFLink和GSI。AFLink用于将短轨迹关联为完整轨迹,就作者目前所知,这是第一个没有外观信息的全局链接模型。其次,作者提出了高斯平滑插值法(GSI)来填补漏检,GSI不像线性插值法那样忽略运动信息,而是基于高斯回归算法,可以实现更精确的定位。此外,AFLink和GSI被插入其他无需额外计算的跟踪器。通过结合了AFLink和GSI的StrongSORT,最终集成得到的StrongSORT++在MOT17和MOT20上HOTA和IDF1两项指标上排名均为第一名。
【介绍】
多目标跟踪(MOT)在视频理解中起着至关重要的作用。它旨在以逐帧的方式来检测和跟踪所有特定类别的对象。在过去的几年里,tracking-by-detection范式[3,4,36,62,69]主导了多目标跟踪的任务,它对每一帧进行检测并且将MOT转换为一个数据关联任务。受益于高性能的目标检测模型,tracking-by-detection方法由于它们出色的表现而获取人们喜爱。然而,SDE系列(tracking-by-detection)算法需要多个计算昂贵的组件:比如一个检测器和一个嵌入模型。为了解决这个问题,最近几个方法融合了检测器和嵌入模型至统一的框架。而联合检测和嵌入模型训练能获得更好的跟踪结果。因此,这些方法(联合跟踪器)得到可比较甚至更好的跟踪精度,相比于单独的跟踪器。
联合检测器的成功促进了研究人员设计各种组件统一的跟踪网络框架,如运动,检测,嵌入和关联等[30, 32, 38, 57, 59, 65, 68]。然而,作者认为这些联合框架中存在两个问题:(1)不同组件之间的竞争(2)用于联合训练这些组件的数据有限。尽管已经有一些方法被提出来解决上述两个问题,这些问题的存在还是降低了跟踪准确率的下限。相反,SDE系列跟踪器的潜力似乎是被低估了。
在本文中,作者回顾了经典的独立跟踪器deepsort[62],它是最早将深度学习模型用于多目标跟踪任务的方法之一。作者任务DeepSORT不如当前最先进的方法,是由于它的技术过世了,而不是它的跟踪范式。作者通过在多个方面为DeepSORT配备先进的组件,由此提出了StrongSORT,该模型在MOT17和MOT20上能达到新的SOTA。
作者还提出了两个轻量级的即插即用的与模型、外观无关的算法来完善跟踪结果。第一,为了更好地利用全局信息,一些方法[12,39,55,56,67]提出通过使用一个全局连接模型将短轨迹和轨迹相关联。它们通常生成准确但不完整的轨迹段,并且使用全局信息通过离线的方式去关联它们。尽管这些方法很好地提升了跟踪表现,但是他们都依赖于一个计算密集型的模型,特别是外观嵌入。相反,作者提出了一种与外观无关的连接模型AFLink,它只利用时空信息来预测两个轨迹段是否属于同一个ID。
第二,线性插值法被广泛应用于弥补漏检情况。然而,它忽略了运动信息,这限制了插值位置的准确率。为了解决这个问题,我们提出了高斯平滑插值算法GSI,通过使用高斯过程回归算法增强插值效果。
扩展实验证明这两种方法对StrongSORT以及其他最先进检测器的可观的提升,比如CenterTrack,TransTrack和FairMot。特别地是,通过将AFLink和GSI应用于StrongSORT,产生了一个更佳的跟踪器StrongSORT++。(StrongSORT++在各个数据集上的效果)
图1 对比了StrongSORT和StrongSORT++,在多个数据集上获得了SOTA表现。
除此之外,AFLink和GSI会带来不可忽视的计算成本。
总之,主要的工作贡献可以总结如下三点:
(1) 通过在多个方面改进deepsort,从而产生了StrongSORT,在MOT17和20上获得了SOTA表现。
(2) 提出了AFLink和GSI两种轻量级且和外观无关的算法,可以移植到其他的跟踪器提高性能。
(3) 将AFLink和GSI集成到StrongSort中,在HOTA和IDF1两个指标上获得第一。
【相关工作】
-
SDE和JDE
MOT方法可以分为单独跟踪器和联合跟踪器。单独跟踪器[3,4,7,8,15,36,62,69]遵循检测跟踪范式,首先定位目标,然后将其与外观、运动等信息相关联。受益于物体检测[17, 42, 43, 52, 53, 78]的快速发展 ,单独跟踪器多年来一直主导着MOT任务。最近,几个联合跟踪器[30,32,38,57,59,65,68]被提出用来联合训练检测和一些其他组件,例如运动,嵌入和关联模型。这些跟踪器的主要好处是它们的低计算成本和相当的性能。但是,作者认为联合跟踪器面临两个主要问题: 不同组件之间的竞争以及用于联合训练组件的数据是有限的。这两个问题限制了跟踪精度的上限。因此,我们认为tracking-by-detection检测跟踪范式仍然是跟踪性能的最佳解决方案。
同时,最近的几项研究[48, 49, 73]放弃了外观信息,只依赖高性能检测器和运动信息,从而在MOTChallenge基准上[11,35]实现了高运行速度和最先进的性能。然而,我们认为,部分原因是这些数据集中的运动模式普遍简单。在更复杂的场景中,放弃外观特征会导致模型的鲁棒性较差。在这篇论文中,我们采用了类似DeepSORT的范式,配备了各种先进的技术来证实这个经典框架的有效性。
-
MOT中的全局链接
为了利用丰富的全局信息,几种方法使用全局链接模型来改进跟踪结果[12, 39, 55, 56, 67]。他们倾向于通过首先使用时空和外观信息来生成准确但不完整的轨迹。 然后,通过以离线方式探索全局信息,将这些轨迹链接起来。 TNT[56]设计了一个多尺度的TrackletNet来测量两个tracklet之间的连接性。它通过使用多尺度卷积核在一个统一的网络中对运动和外观信息进行编码。 TPM[39]提出了一个 tracklet-plane 匹配过程,将容易混淆的 tracklet 推入不同的 tracklet-plane,这有助于减少 tracklet 匹配步骤中的混淆。 ReMOT[67]是从ReMOTS[66]改进而来的。给定任何跟踪结果,ReMOT 将不完美的轨迹分割成轨迹,然后将它们与外观特征合并。 GIAOTracker[12]提出了一种复杂的全局链接算法,该算法通过使用改进的 ResNet50-TP [16]模型 对 tracklet 外观特征进行编码,并将 tracklet 与空间和时间成本相关联。 尽管这些方法产生了显着的改进,但它们都依赖于外观特征,这带来了很高地计算成本。 不同的是,我们提出了仅利用运动信息来预测两个轨迹之间的链接置信度的 AFLink 模型。通过设计适当的模型框架和训练过程,AFLink 以极少的成本使各种最先进的跟踪器受益。 据我们所知,这是 MOT 任务的第一个无外观且轻量级的全局链接模型。
-
MOT中的插值
线性插值被广泛用于填补缺失检测[12, 21, 37, 40, 41, 73]的恢复轨迹空白。尽管线性插值简单有效,但它忽略了运动信息,这限制了恢复的边界框的准确性。为了解决这个问题,人们提出了几种有效利用时空信息的策略。V-IOUTracker[5]通过在出现漏检时退回到单目标跟踪来扩展IOUTracker[4]。MAT[19]用循环伪观测轨迹填充策略,对线性插值轨迹进行非线性平滑。需要额外的摄像机运动补偿(CMC)模型[14]和卡尔曼滤波器[26]来预测缺失位置。MAATrack[49]通过仅应用CMC模型简化了它。所有这些方法都使用额外的模型,即单目标跟踪器、CMC、卡尔曼滤波器,以换取性能提升。相反,我们建议基于高斯过程回归(GPR)算法[61]对非线性运动建模。在没有额外耗时组件的情况下,我们提出的GSI算法在准确性和效率之间实现了良好的权衡。
与我们的GSI最相似的工作是[79],它利用GPR算法去使未插入的轨迹光滑,以实现准确速度预测。然而,它适用于监控视频中的事件检测任务。与其不同的是,我们学习了MOT任务,并采用GPR细化插值定位,以及提出了自适应平滑因子,取代了预设超参数。
【StrongSORT】
- DeepSORT
- Strong DeepSORT
【StrongSORT++】
- AFLink
- GSI
【实验】
-
数据集和评估指标
数据集:
MOT17是一个流行的MOT数据集,包含了7个序列,5316帧用于训练;7个序列,5919帧用于测试。MOT20是一个高度拥挤且具有挑战的场景数据集,包含了4个序列,8931帧用于训练;4个序列,4479帧用于测试。
使用Dukemtmc训练重识别网络,在CrowdHuman和MOT17半训练集上训练检测器。添加cityperson和ethz进行测试。
评估指标:
使用指标 MOTA、ID、IDF1、HOTA、AssA、DetA 和 FPS 来评估跟踪性能 [2,33,44]。 MOTA 是基于 FP、FN 和 IDs 计算的,更侧重于检测性能。相比之下,IDF1 更好地衡量了 ID 匹配的一致性 [23]。 HOTA 是检测分数 DetA 和关联分数 AssA 的显式组合,它将执行准确检测和关联的效果平衡到一个统一的指标中。此外,它评估预测和 GT 边界框之间的多个不同的不同检测相似度值(0.05 到 0.95,间隔为 0.05),而不是像 MOTA 和 IDF1 那样设置单个值(即 0.5)。
-
实验细节
-
消融实验
-
MOT结果
-
局限
StrongSORT和StrongSORT++仍然有几个限制。主要关注的是,与关联跟踪器和几个无外观分离跟踪器相比,它们的运行速度相对较低。进一步研究提高计算效率是必要的。此外,虽然我们的方法在度量IDF1和HOTA中排名第一,但它具有略低的MOTA,这主要是由于检测得分的高阈值导致许多缺失检测造成的。我们相信精心设计的阈值策略或关联算法会有所帮助。至于AFLink,虽然它在恢复丢失的关联方面表现良好,但它对错误的关联问题是无能为力的。具体而言,AFLink不能将ID混合轨迹拆分为准确的轨迹。
【结论】