三、计算机视觉_06YOLO基础知识

embedded/2024/11/22 12:20:50/

1、YOLO概述

1.1 定义

YOLO(You Only Look Once)是一种流行的对象检测和图像分割模型,由华盛顿大学的 Joseph Redmon 和 Ali Farhadi 于 2015 年推出,因其高速和准确性而迅速受到欢迎

在目标检测领域,传统方法(如R-CNN系列算法)将目标检测分为两个阶段:

  • 首先使用区域候选网络(RPN)提取候选目标信息

  • 然后通过检测网络完成对候选目标的位置和类别的预测和识别

YOLO作为一种单阶段检测算法,并不需要使用RPN,它通过单次网络前向传播即可完成目标检测任务(所以命名为“You Only Look Once”,即“你只需要看一次”)

1.2 发展史

YOLO自 2015 年首次提出至今,经历了多个版本的迭代:(最新版本可见官网https://docs.ultralytics.com)

  • YOLOv2 于 2016 年发布,通过合并批量规范化、锚框和维度集群改进了原始模型

  • YOLOv3 于 2018 年推出,使用更高效的主干网络、多个锚点和空间金字塔池进一步增强了模型的性能

  • YOLOv4 于 2020 年发布,引入了 Mosaic 数据增强、新的无锚点检测头和新的损失函数等创新

  • YOLOv5 进一步提高了模型的性能,并添加了新功能,例如超参数优化、集成实验跟踪和自动导出为流行的导出格式

  • YOLOv6 由美团于 2022 年开源,并被用于该公司的许多自主送货机器人

  • YOLOv7 添加了其他任务,例如对 COCO 关键点数据集进行姿态估计

  • YOLOv8 由 Ultralytics 于 2023 年发布。YOLOv8 引入了新功能和改进,以增强性能、灵活性和效率,支持全方位的视觉 AI 任务

  • YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法

  • YOLOv10 由清华大学的研究人员使用 UltralyticsPython 包创建。此版本通过引入端到端头来提供实时对象检测改进,消除了非最大抑制 (NMS) 要求

  • YOLO11 是Ultralytics 的最新 YOLO 模型,在多项任务(包括检测、分割、姿态估计、跟踪和分类)中提供最先进的 (SOTA) 性能,利用了各种 AI 应用程序和领域的功能

1.3 核心原理

YOLO的核心原理是将目标检测任务视为一个回归问题,它将图像分割成一个个网格,然后对每个网格预测固定数量的边界框和相应的类别,并使用非极大值抑制(NMS)来合并重叠的预测框

2、重要文件

YOLO的使用过程中,.yaml.pt 是两个非常重要的文件

2.1 .yaml 文件

.yaml 文件是YOLO配置文件,它包含了模型训练和检测过程中所需的参数和设置,这些参数包括但不限于模型架构、输入输出尺寸、类别数量、训练参数(如学习率、批处理大小、迭代次数等)以及数据集的路径

例如,一个典型的YOLO .yaml 文件可能包含以下内容:

# YOLOv5 model configuration
model:name: YOLOv5type: YOLOv5args:model_type: small  # Model type, can be 'small', 'medium', 'large', 'xlarge', 'huge'
train:batch_size: 16epochs: 300learning_rate: 0.001data: "path/to/dataset.yaml"  # Path to dataset .yaml file

这个文件通常在训练开始之前被创建或修改,以适应特定的任务和数据集

2.2 .pt 文件

.pt 文件是PyTorch模型权重文件,它包含了训练好的模型参数,在YOLO中,一旦模型被训练完成,其权重就会被保存为 .pt 文件,以便后续的模型评估、推理或继续训练

.pt 文件是PyTorch特有的格式,可以被直接加载到PyTorch模型中,用于进行预测或进一步的训练,例如:

model = torch.load('path/to/model.pt')

.pt 文件是模型训练的成果,可以被用来在不同的环境和应用中部署YOLO模型

3、Ultralytics YOLO源码安装

Ultralytics YOLO 是广受赞誉的 YOLO (You Only Look Once) 系列的最新进展,用于实时对象检测和图像分割,它基于之前的版本构建,引入了新功能和改进,以提高性能、灵活性和效率,并支持各种视觉 AI 任务,例如检测、分割、姿势估计、跟踪和分类等

根据官网(https://docs.ultralytics.com/quickstart/#install-ultralytics)内容可知,Ultralytics YOLO有pip、conda、源码、docker这四种安装方法,本文主要介绍大家常用的pip和源码这两种安装方式

3.0 torchvision

计算机视觉深度学习密不可分,而深度学习中目前最主流的框架就是pytorch,在安装pytorch(https://pytorch.org/get-started/locally)时,建议把torchvision也一起安装上,这样才能使用YOLO

3.1 pip安装

直接在有python解释器的环境下执行以下命令即可

pip install ultralytics

ps:如遇网速不佳的问题,可尝试以下命令

pip install --index-url https://mirrors.aliyun.com/pypi/simple ultralytics

3.2 源码安装

实际开发中,我们可能会对YOLO源码进行一定的修改,以满足一些个性化的需求

因此,如果想学习YOLO或基于YOLO进行项目开发,则推荐使用源码的方式进行YOLO的安装,具体安装方法如下

Step1:安装git

要确保电脑上有git,然后才能执行Step2中正式的安装操作

git的安装方法:访问官网https://git-scm.com/downloads,根据自己的操作系统,进行对应安装包的下载,并进行常规安装即可(如windows系统下载的是.exe文件,和平常装其他软件一样,双击安装即可)

Step2:安装yolo

打开git命令行,依次执行以下命令

git clone https://github.com/ultralytics/ultralytic

由于是国外网址,下载会比较慢,如遇网络不佳,可在闲时多试几次

上述命令执行完毕之后,会在git命令行执行目录中得到ultralytics文件夹(默认情况下,在哪里运行git,就会下载到哪里,比如我在windows电脑桌面执行,则会下载到桌面)

有了ultralytics文件夹之后,建议将其复制粘贴到一个合适的地方进行保存,比如我将其存放到了D盘的AIPackage目录下,避免以后对其进行了误删除

最后,我们在存放ultralytics文件夹的目录下,打开命令行黑窗口

进入命令行黑窗口后,依次执行以下两个命令进行安装即可

cd ultralyticspip install -e .

4、官网demo示例

针对下图进行目标检测

三行代码打天下

# 引入YOLO
from ultralytics imort YOLO# 加载模型:N, S, M, L, X
model = YOLO("yolo11n.pt")# 模型预测
results = model("https://ultralytics.com/images/bus.jpg")

备注:如果运行代码时,因为网络原因难以请求到https://ultralytics.com/images/bus.jpg,则可以先直接在浏览器访问此网址,下载对应的bus.jpg图片,然后放到上面三行代码的同级目录中,并修改最后一行代码为

results = model("./bus.jpg")

运行结果:

image 1/1 D:\jupyterPythonCodes\CV\day10\codes\bus.jpg: 224x224 minibus 0.57, police_van 0.34, trolleybus 0.04, recreational_vehicle 0.01, amphibian 0.01, 6.0ms Speed: 42.0ms preprocess, 6.0ms inference, 0.0ms postprocess per image at shape (1, 3, 224, 224)

结果解析:

运行结果提供了关于检测过程和性能的详细信息:

  • 图像信息:image 1/1 D:\jupyterPythonCodes\CV\day10\codes\bus.jpg: 224x224 minibus 0.57, police_van 0.34, trolleybus 0.04, recreational_vehicle 0.01, amphibian 0.01, 6.0ms

    • 这表明在处理的第一张图像中(共一张),检测到的物体包括小巴(minibus)概率为0.57,警车(police_van)概率为0.34等,这些概率表示模型对检测到的物体属于各个类别的置信度
    • 224x224指的是图像的尺寸
    • 6.0ms指的是模型进行单张图像推理所需的时间
  • 速度信息:Speed: 42.0ms preprocess, 6.0ms inference, 0.0ms postprocess per image at shape (1, 3, 224, 224)

    • 42.0ms preprocess:图像预处理所需的时间
    • 6.0ms inference:模型推理所需的时间
    • 0.0ms postprocess:后处理所需的时间
    • per image at shape (1, 3, 224, 224):这些操作是针对每张图像的,图像的维度是1(批次大小),3(颜色通道),224(高度),224(宽度)

http://www.ppmy.cn/embedded/139624.html

相关文章

前端常用内容

Style 1. 文本左对齐 style"text-align: left;" 2. 文本居中 style"text-align: center;" 3. 文本右对齐 style"text-align: right;"margin 属性可以设置以下四种类型的外边距: 1. 单一值:为所有四个方向(上、…

鸿蒙学习高效开发与测试-应用程序框架和HarmonyOS SDK(3)

文章目录 1、应用程序框架1、规范化后台进程管理2、原生支持分布式3、支持多设备的统一窗口管理4、 组件共享及面向对象5、逻辑与界面解耦6、灵活扩展机制2、HarmonyOS SDK1、 开放能力 Kit2、开放能力的检索和使用3、 方舟工具链4、前端编译器架构1、应用程序框架 应 用 程 序…

InnoDB存储引擎对MVCC的实现

MVCC 是一种并发控制机制,用于在多个并发事务同时读写数据库时保持数据的一致性和隔离性。它是通过在每个数据行上维护多个版本的数据来实现的。当一个事务要对数据库中的数据进行修改时,MVCC 会为该事务创建一个数据快照,而不是直接修改实际…

探索PDFMiner:Python中的PDF解析利器

文章目录 **探索PDFMiner:Python中的PDF解析利器**1. 背景介绍:为何选择PDFMiner?2. PDFMiner是什么?3. 如何安装PDFMiner?4. 简单库函数使用方法4.1 提取文本4.2 获取页面布局信息4.3 提取表格数据4.4 提取图像 5. 应…

C++不完整类型(Incomplete Type)的检测与避免

目录 1.引言 2.为什么使用不完整类型? 3.C默认删除器default_delete 4.boost库中checked_delete 5.总结 1.引言 在C中,类型有Complete type和Incomplete type之分,对于Complete type, 它的大小在编译时是可以确定的,而对于In…

【Patroni官方文档】复制模式

Patroni 使用 PostgreSQL 的流复制。有关流复制的更多信息,请参阅 Postgres 文档。Patroni 默认将 PostgreSQL 配置为异步复制。选择哪种复制模式取决于业务需求。请研究异步和同步复制以及其他高可用性(HA)解决方案,以确定哪种解决方案最适合您。 异步模式的持久性 在异…

5、AI测试辅助-生成测试用例思维导图

AI测试辅助-生成测试用例思维导图 创建测试用例两种方式1、Plantuml思维导图版本 (不推荐)2、Markdown思维导图版本(推荐) 创建测试用例两种方式 完整的测试用例通常需要包含以下的元素: 1、测试模块 2、测试标题 3、前置条件 4、…

初试无监督学习 - K均值聚类算法

文章目录 1. K均值聚类算法概述2. k均值聚类算法演示2.1 准备工作2.2 生成聚类用的样本数据集2.3 初始化KMeans模型对象,并指定类别数量2.4 用样本数据训练模型2.5 用训练好的模型生成预测结果2.6 输出预测结果2.7 可视化预测结果 3. 实战小结 1. K均值聚类算法概述…