PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战

devtools/2025/4/2 6:34:46/

在上一篇文章中,我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测,重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型,并在 COCO 数据集上进行训练和评估。


一、YOLOv12 基础

YOLOv12 是 Ultralytics 于 2024 年 12 月发布的最新版本,相比 YOLOv11 具有革命性改进。

1. YOLOv12 的核心思想

  • Omni-Dimensional 动态网络

    • 根据输入分辨率动态调整网络结构

  • 神经架构搜索 (NAS)

    • 自动优化模型架构

  • 多模态融合

    • 支持图像、视频和点云数据联合训练

  • 自监督预训练

    • 新增对比学习预训练模式

2. YOLOv12 的优势

指标YOLOv11YOLOv12提升幅度
mAP@0.5:0.9556.258.7+4.4%
推理速度(FPS)425520+22%
训练效率1x1.8x+80%
能效比1x1.5x+50%

3. YOLOv12 的算法流程

  1. 动态输入处理:自动适应不同分辨率输入

  2. 多模态特征提取:统一处理图像/视频/点云

  3. NAS 优化预测头:自动调整检测头结构

  4. 自监督微调:可选对比学习增强模式

  5. 混合精度推理:自动切换 FP16/INT8


二、COCO 数据集实战

我们将使用 PyTorch 和 Ultralytics 官方实现进行 YOLOv12 的训练和评估。

1. 实现步骤

  1. 安装 YOLOv12 环境

  2. 准备 COCO 数据集

  3. 配置模型参数

  4. 训练和评估模型

  5. 测试模型性能

2. 代码实现

import torch
from ultralytics import YOLO
from PIL import Image
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
​
# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
​
# 加载预训练模型 (下载地址为https://github.com/sunsmarterjie/yolov12/releases/download/v1.0/yolov12s.pt)
model = YOLO('yolov12s.pt').to(device)
​
# COCO 类别标签
coco_labels = model.names  # 自动从模型获取
​
# 检测函数
def detect(image_path):# 加载图像img = Image.open(image_path)# 推理results = model(img, conf=0.5, iou=0.45)# 解析结果detections = []for result in results:boxes = result.boxesfor box in boxes:detections.append({'bbox': box.xyxy[0].tolist(),'confidence': box.conf.item(),'class': coco_labels[int(box.cls)]})return img, detections
​
# 可视化函数
def plot_detections(image, detections):plt.figure(figsize=(12, 8))plt.imshow(image)ax = plt.gca()for det in detections:bbox = det['bbox']rect = Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0], bbox[3]-bbox[1],linewidth=2, edgecolor='r', facecolor='none')ax.add_patch(rect)plt.text(bbox[0], bbox[1]-5, f"{det['class']} {det['confidence']:.2f}",color='red', fontsize=12, bbox=dict(facecolor='white', alpha=0.7))plt.axis('off')plt.show()
​
# 测试检测
image_path = "test.jpg"  # 替换为你的测试图像
original_image, detections = detect(image_path)
plot_detections(original_image, detections)

原图:

输出图:


三、YOLOv12 关键技术

1. Omni-Dimensional 动态网络

class OmniDimensionalBlock(nn.Module):def __init__(self, c1, c2):super().__init__()# 动态卷积核选择self.conv = nn.ModuleDict({'3x3': nn.Conv2d(c1, c2, 3),'5x5': nn.Conv2d(c1, c2, 5),'dilated': nn.Conv2d(c1, c2, 3, dilation=2)})def forward(self, x):# 根据输入分辨率选择操作h, w = x.shape[2:]if max(h,w) > 640:return self.conv['5x5'](x)elif min(h,w) < 320:return self.conv['dilated'](x)else:return self.conv['3x3'](x)

2. 动态标签分配

其中权重系数随训练动态调整:

def dynamic_k_matching(scores, targets, current_epoch):# 动态调整k值k = max(1, int(10 * (1 - current_epoch/max_epoch)))# 计算匹配分数match_quality = alpha*iou + beta*cls_score + gamma*center_prior# 执行top-k选择_, topk_idx = match_quality.topk(k, dim=1)return topk_idx

3. 损失函数

YOLOv12 使用改进的多任务损失:


四、自定义数据集训练

1. 数据准备

# custom_data.yaml
path: ./datasets/custom
train: images/train
val: images/val
​
# 多模态支持示例
modality: - image# - video  # 可选视频数据
​
names:0: pedestrian1: vehicle2: traffic_sign

2. 训练配置

# 训练参数
args = {'data': 'custom_data.yaml','epochs': 100,'batch': 32,'imgsz': 640,'optimizer': 'AdamW','lr0': 0.002,'cos_lr': True,'label_smoothing': 0.1,'nas': 'partial',  # 部分架构搜索'self_supervised': False  # 可选自监督模式
}
​
# 开始训练
model = YOLO('yolov12s.pt')
results = model.train(**args)

3. 模型评估

metrics = model.val(data='custom_data.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)
​
print(f"mAP@0.5: {metrics.box.map:.3f}")

4.使用coco8

from ultralytics import YOLO
# coco8.yaml下载地址为https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco8.yaml
# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)
​
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
​
metrics = model.val(data='coco8.yaml',batch=32,imgsz=640,conf=0.001,iou=0.6
)
​
print(f"mAP@0.5: {metrics.box.map:.3f}")

输出为:


五、总结

本文详细介绍了 YOLOv12 的核心改进和 PyTorch 实现,包括:

  1. Omni-Dimensional 动态网络的输入自适应机制

  2. 多模态统一架构的跨模态学习能力

  3. 自监督-有监督联合训练策略

  4. 全自动架构搜索的硬件优化

在下一篇文章《模型压缩与量化部署》中,我们将深入解析 YOLOv12 的量化技术和部署优化策略。

实践建议

  1. 高精度场景:使用 yolov12x + NAS 全量搜索

  2. 实时系统:选择 yolov12n + INT8 量化

  3. 多模态应用:启用 modality 参数联合训练

  4. 数据不足时:开启 self_supervised=True 模式


http://www.ppmy.cn/devtools/172708.html

相关文章

【实战】解决图片 Hover 抖动问题的完整指南

在开发网站时&#xff0c;很多人都会遇到一个常见问题&#xff1a;鼠标移动到图片上&#xff0c;图片放大&#xff0c;结果发生抖动或闪烁。这个问题往往伴随着后端接口请求、JS 动态追加 DOM 等复杂行为。 本文将深入剖析这个问题的成因&#xff0c;并提供一套彻底的解决方案…

域渗透(web安全)

根据提供的系统版本&#xff08;Windows 7 SP1、Windows 10 LTSC 2019、Windows Server 2012 R2&#xff09;和攻击类型&#xff08;PTH/PTK/PTT/黄金票据/白银票据&#xff09;&#xff0c;以下是适配性分析及操作建议&#xff1a; 一、PTH&#xff08;Pass the Hash&#xff…

iPhone mini,永远再见了

世界属于多数派&#xff0c;尽管有极少数人对 iPhone mini 情有独钟&#xff0c;但因为销量惨淡&#xff0c;iPhone mini 还是逃不开停产的命运。 据 Counterpoint 的数据&#xff0c;iPhone 12/13 mini 两代机型&#xff0c;仅占同期 iPhone 销量的 5%。 因为是小屏手机&…

JBDev - Theos下一代越狱开发工具

JBDev - Theos下一代越狱开发工具 自越狱诞生以来&#xff0c;Theos一直是越狱开发的主流工具&#xff0c;大多数开发者使用Theos编译代码&#xff0c;再用lldb手动调试。JBDev简化了这个过程&#xff0c;项目地址https://github.com/lich4/JBDev 简介 JBDev用于Xcode越狱开…

提示词工程 — 科研论文笔记

【20250328】大型语言模型中的提示工程技术与应用系统调查A Systematic Survey of Prompt Engineering in Large Language Models Techniques and Applications&#xff08;2024&#xff09; 研究背景 研究问题&#xff1a;本文探讨了提示工程&#xff08;Prompt Engineering&…

算法基础——模拟

目录 1 多项式输出 2.蛇形方阵 3.字符串的展开 模拟&#xff0c;顾名思义&#xff0c;就是题⽬让你做什么你就做什么&#xff0c;考察的是将思路转化成代码的代码能⼒。这类题⼀般较为简单&#xff0c;属于竞赛⾥⾯的签到题&#xff08;但是&#xff0c;万事⽆绝对&#xff…

Flask登录页面后点击按钮在远程CentOS上自动执行一条命令

templates文件夹和app.py在同一目录下。 templates文件夹下包括2个文件&#xff1a;index.html login.html app.py代码如下&#xff1a; import os import time from flask import Flask, render_template, request, redirect, session, make_response import mysql.con…

C++轻量HeaderOnly的JSON库

文章目录 1 nlohmann/json库说明2 nlohmann/json特点3 nlohmann/json库的使用方法3.1 引入头文件3.2 解析JSON字符串3.3 访问JSON数据3.4 生成JSON对象3.5 修改JSON数据3.6 将JSON写入文件3.7 遍历JSON对象 4 代码示例4.1 定义JSON数值类型4.2 从STL容器转换到json4.3 string序…