目标跟踪算法——ByteTrack算法原理解析

news/2024/9/18 6:38:15/ 标签: 人工智能, 计算机视觉, 算法

文章目录

  • ByteTrack
    • 1. ByteTrack算法步骤:
    • 2. 算法解释
      • 2.1 模型初始化
      • 2.2 模型更新算法流程
        • 2.2.1 检测结果划分,划分为高分和较低分段
        • 2.2.2 高分段处理手段
        • 2.2.3 最优匹配与未匹配划分
        • 2.2.4 低分框再匹配
        • 2.2.5 未确认轨迹处理
        • 2.2.6 更新状态
      • 2.3 匈牙利匹配算法(线性分配)

ByteTrack

1. ByteTrack算法步骤:

  1. 目标检测:ByteTrack算法首先会对视频数据进行目标检测。
  2. 检测结果划分:根据得分(score)对检测结果进行划分。通过设定一个阈值,将检测结果分为高分(high score)和低分(low score)两个部分。高分部分通常对应着较为准确的检测结果,而低分部分可能包含一些误检或检测不准的目标。
  3. 初次匹配:将高分中的检测结果与已有的跟踪轨迹进行匹配追踪。这一步通常使用如SORT等算法进行。在这个过程中,会有部分轨迹成功匹配到检测结果,但也有部分轨迹可能没有被匹配成功。
  4. 再次匹配:对于初次匹配中未能成功匹配的轨迹,ByteTrack算法会将其与低分中的检测结果进行再次匹配。这样做的目的是为了尽可能利用所有的检测结果,提高跟踪的准确性和鲁棒性。
  5. 新建和保留轨迹:对于未能匹配到任何检测结果的跟踪轨迹,ByteTrack算法会保留这些轨迹m帧(m是一个预设的帧数),等待这些轨迹再次出现时再进行匹配。对于没有匹配上跟踪轨迹但得分又足够高的检测框,ByteTrack算法会新建一个跟踪轨迹。

2. 算法解释

2.1 模型初始化

def __init__(self, args, frame_rate=30):# 初始化一个空列表,用于存储正在被跟踪的轨迹self.tracked_stracks = []  # type: list[STrack]# 初始化一个空列表,用于存储丢失的轨迹(即当前帧中未检测到的轨迹)self.lost_stracks = []  # type: list[STrack]# 初始化一个空列表,用于存储已经从跟踪列表中移除的轨迹self.removed_stracks = []  # type: list[STrack]# 当前处理的帧的ID,初始化为0self.frame_id = 0# 存储算法的参数self.args = args#self.det_thresh = args.track_thresh# 初始化检测阈值,这个值用于判断检测到的物体是否应该被追踪# 初始值设置为args中的track_thresh值加上0.1self.det_thresh = args.track_thresh + 0.1# 根据帧率和args中的track_buffer来计算buffer的大小self.buffer_size = int(frame_rate / 30.0 * args.track_buffer)# 最大时间丢失阈值,用于判断一个轨迹何时应该被视为丢失self.max_time_lost = self.buffer_size# 初始化Kalman滤波器,用于预测物体的位置self.kalman_filter = KalmanFilter()

2.2 模型更新算法流程

2.2.1 检测结果划分,划分为高分和较低分段
self.frame_id += 1
# 初始化几个列表,用于存储不同类型的轨迹
activated_starcks = []
refind_stracks = []
lost_stracks = []
removed_stracks = []# 根据output_results的形状决定如何处理检测结果
if output_results.shape[1] == 5:# 如果输出结果的列数是5,那么只包含边界框和分数scores = output_results[:, 4]  # 获取分数列bboxes = output_results[:, :4]  # 获取边界框列
else:# 否则,需要将output_results从tensor转换为numpy数组output_results = output_results.cpu().numpy()scores = output_results[:, 4]  # 获取分数列# 这一行被注释掉了,如果取消注释,则会将分数与另一列相乘# scores = output_results[:, 4] * output_results[:, 5]bboxes = output_results[:, :4]  # 获取边界框列,格式为x1y1x2y2(左上角和右下角坐标)# 以下是关于边界框缩放的代码
# scale = min(img_size[0] / float(img_h), img_size[1] / float(img_w))
# bboxes /= scale# 过滤掉分数低于跟踪阈值的检测结果
remain_inds = scores > self.args.track_thresh
# 分割出分数较高的和较低的检测结果
inds_low = scores > 0.1
inds_high = scores < self.args.track_thresh
# 找到同时满足上述两个条件的索引
inds_second = np.logical_and(inds_low, inds_high)# 获取对应的边界框和分数
dets = bboxes[remain_inds]
scores_keep = scores[remain_inds]dets_second = bboxes[inds_second]
scores_second = scores[inds_second]
2.2.2 高分段处理手段
if len(dets) > 0:'''Detections'''# 创建新的轨迹对象,并添加到detections列表中detections = [STrack(STrack.tlbr_to_tlwh(tlbr), s) for(tlbr, s) in zip(dets, scores_keep)]
else:# 如果没有符合条件的检测结果,则detections列表为空detections = []
''' Add newly detected tracklets to tracked_stracks'''# 将未激活的轨迹添加到unconfirmed列表中,已激活的轨迹添加到tracked_stracks列表中
unconfirmed = []
tracked_stracks = []  # type: list[STrack]
for track in self.tracked_stracks:if not track.is_activated:unconfirmed.append(track)else:tracked_stracks.append(track)
2.2.3 最优匹配与未匹配划分
1.通过计算IoU距离来评估轨迹与检测框之间的匹配程度,并使用匈牙利算法来找到最优匹配。
2.匹配成功后,轨迹会根据新的检测框信息进行更新,或者被重新激活。
3.未匹配的轨迹和检测框则分别存储在u_track和u_detection中,
轨迹和检测框可能需要在后续步骤中进行进一步处理,例如将长时间未匹配的轨迹标记为丢失或移除。
# 第二步:首先与分数较高的检测结果进行关联将当前正在跟踪的轨迹和已丢失的轨迹合并成一个列表,准备进行匹配
strack_pool = joint_stracks(tracked_stracks, self.lost_stracks)
# Predict the current location with KF
# 使用Kalman滤波器预测strack_pool中每个轨迹在当前帧的位置
STrack.multi_predict(strack_pool)
# 计算strack_pool中每个轨迹的预测位置与当前帧检测框之间的IoU距离
dists = matching.iou_distance(strack_pool, detections)
# 如果不是使用MOT20格式的数据集,则根据检测框的分数调整IoU距离
if not self.args.mot20:dists = matching.fuse_score(dists, detections)
# 使用线性分配算法(也称为匈牙利算法)进行轨迹与检测框的匹配
# 返回匹配成功的轨迹和检测框索引对,未匹配的轨迹索引和未匹配的检测框索引
matches, u_track, u_detection = matching.linear_assignment(dists, thresh=self.args.match_thresh)
# 遍历匹配结果
for itracked, idet in matches:# 获取匹配的轨迹和检测框track = strack_pool[itracked]det = detections[idet]if track.state == TrackState.Tracked:# 将激活的轨迹添加到activated_starcks列表中track.update(detections[idet], self.frame_id)activated_starcks.append(track)else:# 如果轨迹是处于丢失状态(Lost) 重新激活轨迹,使用新的检测框信息,将重新找到的轨迹添加到refind_stracks列表中track.re_activate(det, self.frame_id, new_id=False)refind_stracks.append(track)
2.2.4 低分框再匹配

1.如果存在分数较低的检测框,将它们转换成STrack对象列表。
1.1 从未匹配的轨迹中筛选出状态为Tracked的轨迹。
1.2 计算这些轨迹与分数较低的检测框之间的IoU距离。
1.3使用线性分配算法进行二次匹配,阈值设为0.
匹配成功的轨迹根据检测框信息更新或重新激活。
对于剩余未匹配的轨迹,如果它们不是已标记为Lost的状态,则将它们标记为Lost并添加到lost_stracks列表中。

 # 第三步:使用分数较低的检测框进行二次关联# 如果存在分数较低的检测框if len(dets_second) > 0:# 创建一个新的轨迹列表,用于存储分数较低的检测框'''Detections'''detections_second = [STrack(STrack.tlbr_to_tlwh(tlbr), s) for (tlbr, s) in zip(dets_second, scores_second)]else:# 如果没有分数较低的检测框,则创建一个空列表detections_second = []# 从未匹配的轨迹中筛选出状态为Tracked的轨迹r_tracked_stracks = [strack_pool[i] for i in u_track if strack_pool[i].state == TrackState.Tracked]# 计算筛选后的轨迹与分数较低的检测框之间的IoU距离dists = matching.iou_distance(r_tracked_stracks, detections_second)# 使用线性分配算法进行二次匹配,匹配阈值设为0.5matches, u_track, u_detection_second = matching.linear_assignment(dists, thresh=0.5)# 遍历匹配结果for itracked, idet in matches:# 获取匹配的轨迹和检测框track = r_tracked_stracks[itracked]det = detections_second[idet]# 如果轨迹是处于跟踪状态(Tracked)if track.state == TrackState.Tracked:# 使用检测框的信息更新轨迹track.update(det, self.frame_id)# 将激活的轨迹添加到activated_starcks列表中activated_starcks.append(track)# 如果轨迹不是处于跟踪状态(可能是Lost)else:# 重新激活轨迹,使用新的检测框信息track.re_activate(det, self.frame_id, new_id=False)# 将重新找到的轨迹添加到refind_stracks列表中refind_stracks.append(track)# 遍历剩余未匹配的轨迹for it in u_track:# 获取轨迹track = r_tracked_stracks[it]# 如果轨迹不是已标记为Lost的状态if not track.state == TrackState.Lost:# 标记轨迹为Losttrack.mark_lost()# 将Lost状态的轨迹添加到lost_stracks列表中lost_stracks.append(track)
2.2.5 未确认轨迹处理
  1. 从所有检测框中筛选出与未确认轨迹相关的检测框。
  2. 计算未确认轨迹与这些检测框之间的IoU距离。
  3. 如果不是使用MOT20标准,则将轨迹的分数与IoU距离融合,以得到一个综合的匹配距离。
  4. 使用线性分配算法进行匹配,阈值设为0.7。
  5. 对于匹配成功的未确认轨迹,使用检测框的信息进行更新,并将其标记为已激活,添加到activated_starcks列表中。
  6. 对于剩余的未确认轨迹,即未能与任何检测框匹配的轨迹,将其标记为已移除,并添加到removed_stracks列表中。
# 处理未确认的轨迹,这些轨迹通常只有起始帧
'''Deal with unconfirmed tracks, usually tracks with only one beginning frame'''
# 从所有检测框中筛选出与未确认轨迹相关的检测框
detections = [detections[i] for i in u_detection]# 计算未确认轨迹与筛选后的检测框之间的IoU距离
dists = matching.iou_distance(unconfirmed, detections)# 如果不是使用MOT20标准,则将轨迹的分数与IoU距离融合
if not self.args.mot20:dists = matching.fuse_score(dists, detections)# 使用线性分配算法进行匹配,匹配阈值设为0.7
matches, u_unconfirmed, u_detection = matching.linear_assignment(dists, thresh=0.7)# 遍历匹配结果
for itracked, idet in matches:# 获取匹配的未确认轨迹和检测框track = unconfirmed[itracked]det = detections[idet]# 使用检测框的信息更新未确认轨迹track.update(det, self.frame_id)# 将已激活的轨迹添加到activated_starcks列表中activated_starcks.append(track)# 遍历剩余的未确认轨迹
for it in u_unconfirmed:# 获取轨迹track = unconfirmed[it]# 标记轨迹为已移除track.mark_removed()# 将已移除的轨迹添加到removed_stracks列表中removed_stracks.append(track)
2.2.6 更新状态

检查并移除那些超过最大丢失时间阈值的丢失轨迹。
更新已跟踪的轨迹列表,只保留状态为“Tracked”的轨迹。
将新激活的轨迹和重新找到的轨迹添加到已跟踪的轨迹列表中。
更新丢失的轨迹列表,移除那些已经被跟踪的轨迹,并添加新标记为丢失的轨迹。
从丢失的轨迹列表中移除那些已经被移除的轨迹。
将已移除的轨迹添加到移除的轨迹列表中。
移除已跟踪和丢失轨迹列表中的重复轨迹。
返回所有已激活的跟踪轨迹列表。

# 遍历所有标记为丢失的轨迹
for track in self.lost_stracks:# 如果轨迹丢失的时间超过了最大允许丢失时间if self.frame_id - track.end_frame > self.max_time_lost:# 标记轨迹为已移除track.mark_removed()# 将移除的轨迹添加到removed_stracks列表中removed_stracks.append(track)# 更新已跟踪的轨迹列表,只保留状态为Tracked的轨迹
self.tracked_stracks = [t for t in self.tracked_stracks if t.state == TrackState.Tracked]
# 将新激活的轨迹(activated_starcks)添加到已跟踪的轨迹列表中
self.tracked_stracks = joint_stracks(self.tracked_stracks, activated_starcks)
# 将重新找到的轨迹(refind_stracks)也添加到已跟踪的轨迹列表中
self.tracked_stracks = joint_stracks(self.tracked_stracks, refind_stracks)
# 从丢失的轨迹列表中移除那些已经被跟踪的轨迹
self.lost_stracks = sub_stracks(self.lost_stracks, self.tracked_stracks)
# 将新标记为丢失的轨迹(lost_stracks)添加到丢失的轨迹列表中
self.lost_stracks.extend(lost_stracks)
# 从丢失的轨迹列表中移除那些已经被移除的轨迹
self.lost_stracks = sub_stracks(self.lost_stracks, self.removed_stracks)
# 将已移除的轨迹(removed_stracks)添加到移除的轨迹列表中
self.removed_stracks.extend(removed_stracks)
# 移除已跟踪和丢失轨迹列表中的重复轨迹
self.tracked_stracks, self.lost_stracks = remove_duplicate_stracks(self.tracked_stracks, self.lost_stracks)
# 获取所有已激活的跟踪轨迹
output_stracks = [track for track in self.tracked_stracks if track.is_activated]
# 返回已激活的跟踪轨迹列表
return output_stracks

2.3 匈牙利匹配算法(线性分配)

cost, x, y = lap.lapjv(cost_matrix, extend_cost=True, cost_limit=thresh) 这行代码中,lapjv 函数来自 SciPy 的 scipy.optimize 模块,用于解决线性分配问题(也称为匈牙利算法)。这个函数会找到一种最优的配对方式,使得两组元素之间的配对总成本最小。

函数的参数解释如下:

  • cost_matrix: 这是一个二维数组(或矩阵),表示不同元素配对之间的成本。cost_matrix[i][j] 表示将第一组中的第 i 个元素与第二组中的第 j 个元素配对的成本。
  • extend_cost: 这是一个布尔值,当设置为 True 时,lapjv 函数会扩展成本矩阵,使其成为一个方阵(即行数和列数相等),并在扩展的部分填充一个足够大的值,以确保原始成本矩阵中的配对是最优的。这对于非方阵的成本矩阵是必要的,因为匈牙利算法要求成本矩阵是方阵。
  • cost_limit: 这是一个阈值,用于限制考虑的配对成本。只有当配对的成本小于或等于此阈值时,该配对才会被考虑在内。这有助于排除那些成本过高的配对,从而加速计算过程或找到满足特定条件的解。

函数的返回值解释如下:

  • cost: 这是一个标量值,表示找到的最优配对方案的总成本。
  • x: 这是一个整数数组,表示第一组元素与第二组元素的配对关系。如果 x[i] 的值是 j(且 j 是非负的),那么表示第一组中的第 i 个元素与第二组中的第 j 个元素被配对。如果 x[i] 的值是负数,那么表示第一组中的第 i 个元素没有被配对。
  • y: 这是一个整数数组,与 x 类似,表示第二组元素与第一组元素的配对关系。如果 y[j] 的值是 i(且 i 是非负的),那么表示第二组中的第 j 个元素与第一组中的第 i 个元素被配对。如果 y[j] 的值是负数,那么表示第二组中的第 j 个元素没有被配对。
def linear_assignment(cost_matrix, thresh):'''线性分配,匈牙利算法Args:cost_matrix:thresh:Returns:'''if cost_matrix.size == 0:return np.empty((0, 2), dtype=int), tuple(range(cost_matrix.shape[0])), tuple(range(cost_matrix.shape[1]))matches, unmatched_a, unmatched_b = [], [], []cost, x, y = lap.lapjv(cost_matrix, extend_cost=True, cost_limit=thresh)for ix, mx in enumerate(x):if mx >= 0:matches.append([ix, mx])unmatched_a = np.where(x < 0)[0]unmatched_b = np.where(y < 0)[0]matches = np.asarray(matches)return matches, unmatched_a, unmatched_b
, [], []cost, x, y = lap.lapjv(cost_matrix, extend_cost=True, cost_limit=thresh)for ix, mx in enumerate(x):if mx >= 0:matches.append([ix, mx])unmatched_a = np.where(x < 0)[0]unmatched_b = np.where(y < 0)[0]matches = np.asarray(matches)return matches, unmatched_a, unmatched_b

http://www.ppmy.cn/news/1520917.html

相关文章

ffplay源码分析(五)包缓存队列和帧缓存队列

在音视频处理流程中&#xff0c;ffplay的有两种队列&#xff0c;包缓存队列&#xff08;Packet Buffer Queue&#xff09;和帧缓存队列&#xff08;Frame Buffer Queue&#xff09;。这两个队列的存在&#xff0c;是为了适应音视频数据处理过程中的多线程架构——包括收包线程、…

图像白平衡

目录 效果 背景 什么是白平衡&#xff1f; 实现原理 将指定图色调调整为参考图色调主要流程 示例代码 效果 将图一效果转换为图二效果色调&#xff1a; 调整后&#xff0c;可实现色调对换 背景 现有两张图像&#xff0c;色调不一致&#xff0c;对于模型重建会有影响。因…

RabbitMQ 02 操作,配置信息,用户权限

01.介绍启动&#xff0c;关闭 02.环境 2.1 MQ是用Erlang语言写的 2.2 一个RabbitMQ 节点 一个 Erlang节点一个Erlang 程序 &#xff08;RabbitMQ程序&#xff09; 2.3 Erlang节点&#xff1a; 这个是Erlang节点集群状态下&#xff1a; 2.4 启动节点 2.5 查看日志信息 …

2021年大厂Java面试题(基础+框架+系统架构+分布式+实战)

Java线程的状态 进程和线程的区别&#xff0c;进程间如何通讯&#xff0c;线程间如何通讯 HashMap的数据结构是什么&#xff1f;如何实现的。和HashTable&#xff0c;ConcurrentHashMap的区别 Cookie和Session的区别 索引有什么用&#xff1f;如何建索引&#xff1f; Arra…

Elasticsearch 中,term 查询和 match 查询的区别

文章目录 前言Elasticsearch 中&#xff0c;term 查询和 match 查询的区别1. Term 查询2. Match 查询3. 总结 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;收藏一键三连啊&#xff0c;写作不易啊^ _ ^。   而且听说点赞的人每天的运气都…

各种各样的正则表达式

一、校验数字的表达式 数字:^[0-9]*$ n位的数字:^\d{n}$ 至少n位的数字:^\d{n,}$ m-n位的数字:^\d{m,n}$ 零和非零开头的数字:^(0|[1-9][0-9]*)$ 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$ 正…

【flask】python框架flask的hello world

创建一个py文件&#xff0c;写如下内容 # save this as app.py from flask import Flaskapp Flask(__name__)app.route("/") def hello():return "Hello, World!"如下图 在此py文件路径下启动cmd&#xff0c;输入 flask run结果如下图 在浏览器中访问…

【科普】数字化和数字化转型:是什么,为什么,怎么做?

​一、什么是数字化转型&#xff1f; 近年来 “数字化”、“数字化转型”概念已经渗透到各个行业&#xff0c;成为业界的热点议题。对于什么是“数字化转型”&#xff0c;众说纷纭。 有人说“数字化转型不过就是给传统的信息化穿上皇帝的新衣”&#xff0c;也有人说“数字化转…

策略优化:提升MySQL数据备份效率的实用指南

在当今数据驱动的商业环境中&#xff0c;数据备份策略的优化对于确保数据安全和业务连续性至关重要。MySQL作为广泛使用的数据库系统&#xff0c;其数据备份策略的优化不仅可以提高数据恢复的效率&#xff0c;还能降低存储成本和提高系统性能。本文将深入探讨如何在MySQL中实现…

用户管理和授权

授权 mysql> show databases; -------------------- | Database | -------------------- | information_schema | | day01db | | employees | | mysql | | mysql01 | | mysql02 | | performance_schema …

深入理解Java虚拟机的类加载机制

深入理解Java虚拟机的类加载机制 目录 深入理解Java虚拟机的类加载机制 一、类加载概念与过程 1. 类加载定义与作用 2. 类加载过程详解 二、类加载器 1. 系统提供的类加载器 2. 自定义类加载器 三、双亲委派模型 1. 双亲委派模型的概念 2. 工作过程 四、类的卸载与重…

【whisper】使用whisper实现语音转文字

whisper需要ffmpeg支持 官网下载ffmpeg https://www.gyan.dev/ffmpeg/builds/下载完毕后解压放到合适的位置 添加环境变量 在cmd中输入以下 ffmpeg -version出现下面结果代表成功 安装whisper pip install openai-whisper在vscode中运行 测试代码 import whisperif __n…

ROS2 2D相机基于AprilTag实现3D空间定位最简流程

文章目录 前言驱动安装下载安装方式一&#xff1a;方式二&#xff1a; 相机检测配置config文件编译、运行程序注意 内参标定标定板运行程序 apriltag空间定位标签打印下载安装可视化结果 前言 AprilTag是一种高性能的视觉标记系统&#xff0c;广泛应用于机器人导航、增强现实和…

Python实战项目:天气数据爬取+数据可视化(完整代码)_python爬虫实战

一、选题的背景 随着人们对天气的关注逐渐增加&#xff0c;天气预报数据的获取与可视化成为了当今的热门话题&#xff0c;天气预报我们每天都会关注&#xff0c;天气情况会影响到我们日常的增减衣物、出行安排等。每天的气温、相对湿度、降水量以及风向风速是关注的焦点。通过…

VXLAN 为何采用UDP

VXLAN 简介 VXLAN是一种网络虚拟化技术&#xff0c;它通过在UDP数据包中封装MAC地址和IP信息&#xff0c;使得二层网络&#xff08;如以太网&#xff09;能够跨越三层网络&#xff08;如IP网络&#xff09;进行扩展。这种封装方式不仅支持TCP流量的传输&#xff0c;还能有效处…

网络通讯安全基础知识(加密+解密+验签+证书)

1、加密解密基本概念 通讯的加密和解密‌主要涉及将原始信息&#xff08;明文&#xff09;转换为不可直接理解的格式&#xff08;密文&#xff09;&#xff0c;以及将密文还原为原始信息的过程。这一过程通常包括三个基本步骤&#xff1a;加密、传输和解密&#xff0c;其中加密…

Python数据结构类型总结

文章目录 Dictionaries, Maps, and Hash Tablesdict:标准字典collections.OrderedDict: 记住键的插入顺序collections.defaultdict: 返回缺失键的默认值collections.ChainMap:将多个词典作为单个映射进行搜索types.MappingProxyType: 制作只读字典的封装器wrapper Array Data S…

C++---基础概念

1 命名空间 在C/C中&#xff0c;变量、函数和后面要学到的类都是大量存在的&#xff0c;这些变量、函数和类的名称将都存 在于全局作用域中&#xff0c;可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化&#xff0c; 以避免命名冲突或名字污染&#xff0c;n…

鸿蒙开发基础知识 第二篇【页面布局】

鸿蒙开发基础知识 第二篇 1. 两端对齐 demo 2.交叉轴对齐方式 demo 3.列表项布局 demo 4.自适应伸缩布局 demo 自行练习 5.弹性布局 flex 换行布局 demo 案例 更多鸿蒙技能知识与案例 我已经整理到下面了 ↓↓↓ 快去看那看吧&#xff01; 点击下方↓↓↓↓↓↓↓…

奇偶校验、crc循环冗余检验

数据链路层 链路 从一个结点到相邻结点的一段物理线路&#xff0c;而中间没有任何其他的交换点 数据链路 是指把实现通信协议的硬件和软件加到链路上 帧 在数据链路上传输的数据包&#xff0c;称之为帧 数据链路层是以帧为单位进行传输和处理数据的 数据链路层的三个重…