昇思25天学习打卡营第8天 |昇思MindSpore SSD 目标检测算法 学习与总结

embedded/2024/10/22 14:31:26/

一、引言

SSD(Single Shot MultiBox Detector)是 Wei Liu 等人在 ECCV 2016 上提出的一种目标检测算法,具有较高的检测精度和速度。

二、算法概述

  1. 主流算法类型

    • Two-stage 方法:如 RCNN 系列,先产生候选框,再分类和回归。
    • One-stage 方法:如 YOLO 和 SSD,直接通过主干网络给出类别位置信息,无需区域生成。
  2. 模型结构

    • 以 VGG16 为基础模型,新增卷积层以获取更多特征图用于检测。
    • 利用多尺度的特征图进行检测,浅层检测小目标,深层检测大目标。
  3. 模型特点

    • 多尺度检测:使用 6 种不同尺寸的特征图,使检测更充分,能检测出小目标。
    • 采用卷积进行检测:直接采用卷积对不同特征图提取检测结果。
    • 预设 anchor:采用预设边界框,在其指导下微调预测框的尺寸。

三、环境准备与数据处理

  1. 环境准备:确保本地安装了 mindspore、download、pycocotools、opencv-python。

  2. 数据准备与处理

    • 数据集为 COCO 2017,将其转换为 MindRecord 格式以减少磁盘和网络开销。
    • 为数据处理定义输入,包括 COCO 根目录、标注 JSON 文件、训练类别等。
  3. 数据采样

    • 模型对每个训练图像随机采样,包括使用整个原始输入图像、采样特定区域等。
    • 定义随机采样函数,如 random_sample_crop,进行图像和框的随机裁剪。
  4. 数据集创建

    • 使用 create_ssd_dataset 函数创建 SSD 数据集,包括数据解码、转换、增强等操作,并进行批量处理。

四、模型构建

  1. Backbone Layer:使用 VGG16 网络的前 13 个卷积层,将全连接层转换为卷积层以提取特征。

  2. Extra Feature Layer:在 VGG16 基础上增加 4 个深度卷积层提取更高层语义信息。

  3. Anchor:采用 PriorBox 进行区域生成,设计大量密集的 PriorBox 保证全面检测。

  4. Detection Layer:对 6 个预测特征图进行卷积操作,得到回归偏移量和类别概率分数。

五、损失函数

目标函数包括预选框与目标类别的置信度误差(confidence loss)和位置误差(location loss),位置损失采用 Smooth L1 Loss,置信度损失采用多类置信度上的 softmax 损失。

六、评估指标与训练过程

  1. 评估指标

    • 在 SSD 中,训练无需非极大值抑制(NMS),检测时需用 NMS 过滤重叠预测框。
    • 评估指标包括平均精度(AP)和平均召回率(AR),AP 反映预测结果错误率,AR 反映漏检率。
  2. 训练过程

    • 先验框匹配:确定训练图片中 ground truth 与先验框的匹配,采用最大 IOU 和阈值原则,进行正负样本划分,并采用 hard negative mining 平衡样本。
    • 损失函数:使用位置和置信度损失的加权和。
    • 数据增强:使用定义好的数据增强方式。

    模型训练设置 epoch 次数为 60,batch_size 为 5,图像尺寸为 300×300,使用 Momentum 优化器,初始学习率为 0.001,使用回调函数监控训练过程,每 10 个 epoch 保存一次模型。

七、评估

自定义 eval_net 类评估训练好的模型,计算不同设置下的 AP 和 AR,使用 COCOMetrics 类计算 mAP。

八、总结

SSD 目标检测算法在精度和速度上取得了较好的平衡,通过多尺度检测、卷积检测和预设 anchor 等策略提高了检测性能。但在实际应用中,仍需根据具体场景和需求进行调整和优化。


http://www.ppmy.cn/embedded/86714.html

相关文章

@Builder注释导致@RequestBody的前端json反序列化失败,HTTP400

项目里发生了一个bug,就是前端请求一个接口时候,报了HTTP 400 Bad Request 通常来说这个问题是前后端的参数没对齐,比如前端传了个String,但后端对应的是Integer。 所以我就排查了半天,结果没发现啥错误,…

HarmonyOS持久化存储数据Preference

Preference首选项 首选项:首选项为应用提供Key-Value键值型的数据处理能力,支持应用持久化轻量级数据,并对其修改和查询。数据存储形式为键值对,键的类型为字符串型,值的存储数据类型包括数字型、字符型、布尔型以及这…

pinia安装及简介

pinia简介 基本特点 轻量级:Pinia相比于传统的Vuex,体积更小,性能更好,只有大约1KB左右。 简化API:Pinia简化了状态管理库的使用方法,抛弃了Vuex中的mutations,只保留了state、getters和actions…

Qt源码交叉编译带openssl的Qt版本

一.背景 近期项目由于对接的后台服务是https的,之前交叉编译的Qt是不带openssl的,为了能支持https,必须要重新编译Qt。 二.环境 环境准备: Ubuntu版本 :18.04; openssl 版本:1.1.1.g&#xff1b…

玩转CSS:用ul li +JS 模拟select,避坑浏览器不兼容。

玩转CSS:用ul li JS 模拟select,避坑浏览器不兼容。 在前端的工作中,经常会遇到 selcet控件,但我们用css来写它的样式时候,总是不那么令人满意,各种浏览器不兼容啊有没有? 那么,我…

MICA:面向复杂嵌入式系统的混合关键性部署框架

背景 在嵌入式场景中,虽然 Linux 已经得到了广泛应用,但并不能覆盖所有需求,例如高实时、高可靠、高安全的场合。这些场合往往是实时操作系统的用武之地。有些应用场景既需要 Linux 的管理能力、丰富的生态,又需要实时操作系统的高…

Boost搜索引擎:关键词搜索模块的构建

关键词搜索模块是基于索引构建模块编写的。 搜索模块: 搜索模块是在服务器构建索引之后进行的,在构建好的索引的服务器上进行关键词搜索。 首先将用户提供的搜索内容进行,关键词分割,将分割好的关键词存放到一个数组中&#xf…

爬职业热度--兼职cat

免责声明:本文仅做技术交流与学习...请勿不正当使用... 循环页数爬取 import pandas as pd import requests from lxml import etree # 初始化一个空的 DataFrame df pd.DataFrame() data_list []headers {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Wi…