用5行代码构建自定义训练的对象检测模型

news/2024/11/6 21:41:21/

如今,机器学习和计算机视觉已成为一种热潮。 我们都已经看到了有关自动驾驶汽车和面部识别的新闻,并且可能想象到建立我们自己的计算机视觉模型将会多么酷。 但是,进入该领域并不总是那么容易,尤其是在没有扎实的数学背景的情况下。 如果您想做的只是尝试一些小事情,像PyTorch和TensorFlow这样的库可能会很乏味。

在本教程中,我为所有人提供了一种仅需几行代码即可构建功能齐全的对象检测模型的简单方法。 更具体地说,我们将使用Detecto ,这是在PyTorch之上构建的Python软件包,它使该过程变得容易并且对所有级别的程序员开放。

快速简便的示例

为了演示使用Detecto有多么简单,让我们加载一个经过预训练的模型,并对下图进行推断:

首先,使用pip下载Detecto软件包:

pip3 install detecto

然后,将上面的图像另存为“ fruit.jpg”,并在与图像相同的文件夹中创建一个Python文件。 在Python文件中,编写以下5行代码:

from detecto import core, utils, visualizeimage = utils.read_image( 'fruit.jpg' )
model = core.Model()labels, boxes, scores = model.predict_top(image)
visualize.show_labeled_image(image, boxes, labels)

运行此文件后(如果您的计算机上没有启用CUDA的GPU,可能会花费几秒钟;稍后再进行介绍),您应该会看到类似以下内容的内容:

太棒了! 我们仅用5行代码即可完成所有这些工作。 这是我们在每个过程中所做的:

  1. 导入的Detecto模块
  2. 读入图像
  3. 初始化预训练模型
  4. 在我们的图像上产生了最高的预测
  5. 绘制我们的预测

Detecto使用PyTorch的模型动物园中的Faster R-CNN ResNet-50 FPN ,它能够检测大约80种不同的物体,例如动物,车辆,厨房用具等。但是,如果您想检测自定义物体(如可乐vs百事可乐罐头,斑马还是长颈鹿?

您会很高兴知道,在自定义数据集上训练Detecto模型同样简单; 同样,您只需要5行代码,以及现有的数据集或花一些时间标记图像。

建立自定义数据集

在本教程中,我们将从头开始构建自己的数据集。 我建议您执行相同的操作,但是如果要跳过此步骤,可以在此处下载示例数据集(从Stanford的Dog Dataset修改)。

对于我们的数据集,我们将训练模型以检测RoboSub比赛中的水下外星人,蝙蝠和女巫,如下所示:

理想情况下,每个类至少需要100张图像。 好消息是,每个图像中可以有多个对象,因此,如果每个图像都包含要检测的每个类别的对象,那么从理论上讲,您可以避免使用100张图像。 另外,如果您有视频素材,Detico可以轻松地将这些素材分割成图像,然后将其用于数据集:

from detecto.utils import split_videosplit_video( 'video.mp4' , 'frames/' , step_size= 4 )

上面的代码在“ video.mp4”中每隔4帧拍摄一次,并将其另存为JPEG文件在“ frames”文件夹中。

生成训练数据集后,应该具有一个类似于以下内容的文件夹:

images/
|   image0.jpg
|   image1.jpg
|   image2.jpg
|   ...

如果需要,您还可以使用另一个文件夹,其中包含一组验证图像。

现在是耗时的部分:标记。 Detecto支持PASCAL VOC格式,您可以使用XML文件来包含图像中每个对象的标签和位置数据。 要创建这些XML文件,可以使用开源LabelImg工具,如下所示:

pip3 install labelImg    # Download LabelImg using pip
labelImg                 # Launch the application

现在,您应该会看到一个弹出窗口。 在左侧,单击“打开目录”按钮,然后选择要标记的图像文件夹。 如果一切正常,您应该会看到类似以下内容:

要绘制边界框,请单击左侧菜单栏中的图标(或使用键盘快捷键“ w”)。 然后,您可以在对象周围拖动一个框并编写/选择标签:

标记完图像后,请使用CTRL + S或CMD + S保存XML文件(为简便起见,您可以使用它们自动填充的默认文件位置和名称)。 要标记下一张图像,请单击“下一张图像”(或使用键盘快捷键“ d”)。

完成整个数据集后,您的文件夹应如下所示:

images/
|   image0.jpg
|   image0.xml
|   image1.jpg
|   image1.xml
|   ...

我们几乎准备开始训练我们的对象检测模型!

访问GPU

首先,检查您的计算机是否具有启用CUDA的GPU 。 由于深度学习需要大量处理能力,因此在典型的CPU上进行训练可能会非常缓慢。 值得庆幸的是,大多数现代深度学习框架(例如PyTorch和Tensorflow)都可以在GPU上运行,从而使处理速度更快。 确保已下载PyTorch(如果已安装Detecto,则应该已经下载了),然后运行以下两行代码:

import torchprint(torch.cuda.is_available())

如果打印True,那就太好了! 您可以跳到下一部分。 如果打印为False,请不要烦恼。 请按照以下步骤创建Google Colaboratory笔记本,这是一个在线编码环境,带有免费的可用GPU。 对于本教程,您将只在Google云端硬盘文件夹中而不是在计算机上工作。

1.登录到Google云端硬盘

2.创建一个名为“ Detecto Tutorial”的文件夹并导航到该文件夹

3.将您的训练图像(和/或验证图像)上传到此文件夹

4.右键单击,转到“更多”,然后单击“ Google Colaboratory”:

现在,您应该看到如下界面:

5.如果需要,请给笔记本起个名字,然后转到“编辑”->“笔记本设置”->“硬件加速器”,然后选择“ GPU”

6.键入以下代码以“装入”驱动器,将目录更改为当前文件夹,然后安装Detecto:

import os
from google.colab import drivedrive.mount( '/content/drive' )os.chdir( '/content/drive/My Drive/Detecto Tutorial' )!pip install detecto

为了确保一切正常,您可以创建一个新的代码单元并键入!ls以检查您是否在正确的目录中。

训练自定义模型

最后,我们现在可以在自定义数据集上训练模型! 如所承诺的,这是容易的部分。 它只需要4行代码:

from detecto import core, utils, visualizedataset = core.Dataset( 'images/' )
model = core.Model([ 'alien' , 'bat' , 'witch' ])model.fit(dataset)

让我们再次分解每一行代码的处理方式:

  1. 导入的Detecto模块
  2. 从“ images”文件夹(包含我们的JPEG和XML文件)创建了一个数据集
  3. 初始化一个模型来检测我们的自定义对象(外星人,蝙蝠和女巫)
  4. 在数据集上训练我们的模型

根据数据集的大小,这可能需要10分钟到1个小时以上的时间才能运行,因此请确保您的程序在完成上述语句后不会立即退出(即,您使用的是保留状态的Jupyter / Colab笔记本)活动时)。

使用训练好的模型

现在您已经有了训练有素的模型,让我们在一些图像上对其进行测试。 要从文件路径读取图像,可以使用detecto.utils模块中的read_image函数(也可以使用上面创建的数据 detecto.utils的图像):

# Specify the path to your image
image = utils.read_image( 'images/image0.jpg' )
predictions = model.predict(image)# predictions format: (labels, boxes, scores)
labels, boxes, scores = predictions# ['alien', 'bat', 'bat']
print(labels) #           xmin       ymin       xmax       ymax
# tensor([[ 569.2125,  203.6702, 1003.4383,  658.1044],
#         [ 276.2478,  144.0074,  579.6044,  508.7444],
#         [ 277.2929,  162.6719,  627.9399,  511.9841]])
print(boxes)# tensor([0.9952, 0.9837, 0.5153])
print(scores)

如您所见,模型的预测方法返回一个由3个元素组成的元组:标签,框和分数。 在上面的示例中,模型在坐标[569、204、1003、658]( boxes[0] )处预测了外星人( labels[0] ),其置信度为0.995( scores[0] )。

根据这些预测,我们可以使用detecto.visualize模块绘制结果。 例如:

visualize.show_labeled_image(image, boxes, labels)

将上面的代码与收到的图像和预测一起运行将产生如下所示的内容:

如果您有视频,则可以在其上运行对象检测:

visualize.detect_video(model, 'input.mp4' , 'output.avi' )

这将获取一个名为“ input.mp4”的视频文件,并根据给定模型的预测结果生成一个“ output.avi”文件。 如果使用VLC或其他视频播放器打开此文件,应该会看到一些有希望的结果!

最后,您可以从文件中保存和加载模型,从而可以保存进度并稍后返回:

model.save( 'model_weights.pth' )# ... Later ...model = core.Model.load( 'model_weights.pth' , [ 'alien' , 'bat' , 'witch' ])

高级用法

您会很高兴知道Detecto不仅限于5行代码。 例如,假设该模型的运行不如您希望的那样。 我们可以尝试通过使用Torchvision转换来扩展我们的数据集并定义一个自定义DataLoader来提高其性能:

from torchvision import transformsaugmentations = transforms.Compose([transforms.ToPILImage(),transforms.RandomHorizontalFlip( 0.5 ),transforms.ColorJitter(saturation= 0.5 ),transforms.ToTensor(),utils.normalize_transform(),
])dataset = core.Dataset( 'images/' , transform=augmentations)loader = core.DataLoader(dataset, batch_size= 2 , shuffle= True )

此代码对数据集中的图像应用了随机的水平翻转和饱和效果,从而增加了数据的多样性。 然后,我们使用batch_size=2定义一个DataLoader对象; 我们将其传递给model.fit而不是Dataset来告诉我们的模型对2张图像进行批处理,而不是默认的1张。

如果您之前创建了单独的验证数据集,那么现在是在培训期间加载它的时候了。 通过提供验证数据集, fit方法将返回每个时期的损失列表,如果verbose=True ,那么它还将在训练过程本身中将其打印出来。 以下代码块演示了这一点,并自定义了其他几个训练参数:

import matplotlib.pyplot as pltval_dataset = core.Dataset( 'validation_images/' )losses = model.fit(loader, val_dataset, epochs= 10 , learning_rate= 0.001 , lr_step_size= 5 , verbose= True )plt.plot(losses)
plt.show()

损失的结果图应或多或少地减少:

为了获得更大的灵活性和对模型的控制,您可以完全绕过Detecto。 model.get_internal_model方法返回所使用的基础火炬模型,您可以根据需要随意调整。

结论

在本教程中,我们展示了计算机视觉和对象检测不需要挑战。 您只需要一点时间和耐心就可以得出带有标签的数据集。

如果您有兴趣进一步探索,请在GitHub上查看Detecto或访问文档以获取更多教程和用例!

先前发布在https://medium.com/@alankbi/build-a-custom-trained-object-detection-model-with-5-lines-of-code-713ba7f6c0fb

From: https://hackernoon.com/build-a-custom-trained-object-detection-model-with-5-lines-of-code-y08n33vi


http://www.ppmy.cn/news/665906.html

相关文章

02FFmpeg-音视频基本概念

文章目录 02FFmpeg-音视频基本概念基本概念音、视频编解码 ---- 编码视频音频 音、视频编解码 ---- 转码视频音频 音、视频编解码 ---- 封装-解封装封装(mux)解封装(demux) 音视频的各种流ES流PES流TS流rtsp流 :RTSPRT…

FFmpeg学习之 一 (音视频理论知识)

FFmpeg学习之 一 (音视频理论知识) 1. 音视频理论知识1.1 基本概念1.1.1 音视频必备的基本概念常用的视频封装格式常用的视频编码器常用的音频编程器:视频流 裸数据YUV 1.1.2 音视频常见处理采集处理编码传输解码渲染常用音频编码格式常用视频…

环二肽试剂:Cyclo(-Hyp-Gly),环二肽含有一个六元环结构,结构稳定

编辑作者|陕西新研博美生物科技有限公司​ 英文名称:Cyclo(-Hyp-Gly) 规格标准:1g、5g、10g CAS:N/A 分子式:C7H10N2O3 分子量:170.17Cyclo(-Hyp-Gly)结构式: 反应机理: Cyclo(-Hyp-Gly)环二肽…

python21天入门教程视频_Python开发21天入门必备系列视频课程

Python开发21天入门必备系列视频课程 798资源网免责声明: [ Python开发21天入门必备系列视频课程 ] 由分享人 一只***57 于 2019-07-09 08:57 上传到百度网盘。此页面由蜘蛛程序自动抓取,以非人工方式自动生成,只作交流和学习使用。本网站本身…

服务器显示检测不到内存,服务器检测不到内存

服务器检测不到内存 内容精选 换一换 华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档,帮助您快速上手使用华为云服务。 华为云帮助中心,为用户提供产品简介、价格说明、…

服务器硬盘槽位不显示,服务器槽位读不出硬盘

服务器槽位读不出硬盘 内容精选 换一换 修改一个备份策略。URI格式PUT /v2/{project_id}/backuppolicy/{policy_id}PUT /v2/{project_id}/backuppolicy/{policy_id}参数说明参数是否必选描述project_id是项目IDpolicy_id是策略ID参数说明参数是否必选参数类型描述backup_po 您可…

树莓派摄像头 C++ OpenCV YoloV3 实现实时目标检测

树莓派摄像头 C OpenCV YoloV3 实现实时目标检测 本文将实现树莓派摄像头 C OpenCV YoloV3 实现实时目标检测,我们会先实现树莓派对视频文件的逐帧检测来验证算法流程,成功后,再接入摄像头进行实时目标检测。 先声明一下笔者的主要软硬件配…

DiskGenius是一款硬盘分区及数据恢复软件

DiskGenius 编辑 锁定 讨论999 DiskGenius是一款 硬盘分区及 数据恢复软件。它是在最初的DOS版的基础上开发而成的。Windows版本的DiskGenius软件,除了继承并增强了DOS版的大部分功能外(少部分没有实现的功能将会陆续加入),还增加了许多新的功能。如&…