深度学习之视觉特征提取器——VGG系列

ops/2024/9/20 7:20:30/ 标签: 深度学习, 人工智能, pytorch, 计算机视觉

VGG

提出论文:1409.1556.pdf (arxiv.org)

引入

距离VGG网络的提出已经约十年,很难想象在深度学习高速发展的今天,一个模型能够历经十年而不衰。虽然如今已经有VGG的大量替代品,但是笔者研究的一些领域仍然有大量工作选择使用VGG。有人说VGG开创了基于一些基础结构(如Conv,Linear,RNN)进行模型堆叠的开端,但笔者更以为是其对深层次网络的研究和特征提取器这一概念的广泛使用作出了巨大贡献(但并不是首次提出)。深度学习高速发展之外,是硬件算力的高速发展。10年前使用VGG某种意义上也可以看成现如今使用LLM。VGG是由Visual Geometry Group中的两位大佬提出(VGG名字的由来就显而易见了)

模型介绍

请添加图片描述

3×3卷积核

在VGG中,很大的贡献之一是使用了3×3卷积核以替代5×5卷积核、7×7卷积核等。这样的优点有两个:

(1)对相同大小的图像使用更小感受野的卷积,就会导致卷积的层数更多,层数更多意味着对非线性的拟合更好。这一点可以类比于高次函数可以拟合的曲线更多、更逼近。比如 y = a x + b y=ax+b y=ax+b就难以拟合曲线,而 y = ( a x + b ) ( c x + d ) y=(ax+b)(cx+d) y=(ax+b)(cx+d)就可以拟合部分曲线。

(2)对相同大小的图像使用3×3的卷积所需要的参数量更少。如图,如果用作者论文中举的例子就是,对一个7×7的感受野使用3×3的卷积总共需要 3 × ( 3 2 C 2 ) = 27 C 2 3\times(3^2C^2)=27C^2 3×(32C2)=27C2的参数,而使用7×7的卷积核则需要 ( 7 2 C 2 ) = 49 C 2 (7^2C^2)=49C^2 (72C2)=49C2的参数,其中 C C C代表通道数。

补充解释:一个3×3的卷积核参数量是 3 2 3^2 32,如果原始特征有 C C C个通道,输出特征也相应有 C C C个通道,那么每个通道对应相乘就得到 C 2 C^2 C2,而对于一个7×7的感受野,需要分成三个阶段使用3×3的卷积,所以再乘以3。

不同深度的VGG

VGG最常见的有四种模型结构,分别是VGG11,VGG13,VGG16,VGG19,其模型结构分别如下:

请添加图片描述

作者也是通过这四种不同深度的模型验证了更深的网络可以有效提高模型的效果。

代码实现

目前最便捷的方法是使用Pytorch中的torchvision库。

以VGG16举例:

下面是官方给的代码:

from torchvision.io import read_image
from torchvision.models import vgg16, VGG16_Weightsimg = read_image("image.jpg")# Step 1: Initialize model with the best available weights
weights = VGG16_Weights.DEFAULT
model = vgg16(weights=weights)
model.eval()# Step 2: Initialize the inference transforms
preprocess = weights.transforms()# Step 3: Apply inference preprocessing transforms
batch = preprocess(img).unsqueeze(0)# Step 4: Use the model and print the predicted category
prediction = model(batch).squeeze(0).softmax(0)
class_id = prediction.argmax().item()
score = prediction[class_id].item()
category_name = weights.meta["categories"][class_id]
print(f"{category_name}: {100 * score:.1f}%")

如果要封装成一个类,并控制输出的维度,可以使用如下代码:

import torch.nn as nn
import torchvision.models as models
from torchvision.models.vgg import VGG16_Weightsclass VGG16(nn.Module):def __init__(self):super(VGG16, self).__init__()self.vgg = models.vgg16(weights=VGG16_Weights.IMAGENET1K_V1)self.dim_feat = 4096self.vgg.classifier[6] = nn.Linear(4096, self.dim_feat)def forward(self, x):output = self.vgg(x)return output

当然,VGG并不止VGG16可以调用,下面是Pytorch官方给出的表格:

WeightAcc@1Acc@5ParamsGFLOPSRecipe
VGG11_BN_Weights.IMAGENET1K_V170.3789.81132.9M7.61link
VGG11_Weights.IMAGENET1K_V169.0288.628132.9M7.61link
VGG13_BN_Weights.IMAGENET1K_V171.58690.374133.1M11.31link
VGG13_Weights.IMAGENET1K_V169.92889.246133.0M11.31link
VGG16_BN_Weights.IMAGENET1K_V173.3691.516138.4M15.47link
VGG16_Weights.IMAGENET1K_V171.59290.382138.4M15.47link
VGG16_Weights.IMAGENET1K_FEATURESnannan138.4M15.47link
VGG19_BN_Weights.IMAGENET1K_V174.21891.842143.7M19.63link
VGG19_Weights.IMAGENET1K_V172.37690.876143.7M19.63link

http://www.ppmy.cn/ops/15115.html

相关文章

vue2响应式 VS vue3响应式

Vue2响应式 存在问题: 新增属性,删除属性,界面不会更新。 直接通过下标修改数组界面不会自动更新。 Vue2使用object.defineProperty来劫持数据是否发生改变,如下: 能监测到获取和修改属性: 新增的属性…

服务器数据恢复—存储硬盘坏道,指示灯亮黄色的数据恢复案例

服务器数据恢复环境&故障: 一台某品牌EqualLogic PS系列某型号存储,存储中有一组由16块SAS硬盘组建的RAID5磁盘阵列,RAID5上划分VMFS文件系统存放虚拟机文件。存储系统上层一共分了4个卷。 raid5阵列中磁盘出现故障,有2块硬盘…

安全评估报告 项目安全风险评估报告 信息安全评估报告

一、安全评估报告的意义 安全评估报告是对特定环境、设施或系统安全性进行全 面分析、评估和预测的重要工具。它通过对潜在风险的识别、分析和评价,帮助决策者了解当前安全形势,制定科学的安全策略,从而有 效预防和减少安全事故的发生。安全…

Hive安装与配置实战指南

Hive安装与配置实战指南 在大数据领域中,Hive以其类SQL的查询语言HQL、可扩展的数据仓库能力和对Hadoop生态系统的良好集成,成为了数据分析和处理的重要工具。本文将指导您完成Hive的安装与配置,帮助您快速搭建起自己的Hive环境。 一、环境…

C++静态变量

C语言中与“静态”相关的词包括,静态全局变量,静态局部变量和静态函数,关键词是static。C语言中的变量从作用域分,可以分为全局变量和局部变量;从存储方式分,可以分为静态存储方式和动态存储方式。 1. 静态…

C语言工程调用C++库解决方案

本文为C语言工程调用C库的解决方案。 应用场景: 需要C程序编译成的库提供函数接口,来解决C语言工程的需求。 人的出场顺序真的很重要,很多人如果换一个时间认识,换一个时间共处,一切都将是不一样的场景,不…

鸿蒙原生应用元服务-访问控制(权限)开发应用权限列表二

ohos.permission.ACCELEROMETER 允许应用读取加速度传感器的数据。 权限级别 :normal 授权方式 :system_grant ACL使能 :TRUE ohos.permission.GYROSCOPE 允许应用读取陀螺仪传感器的数据。 权限级别 :normal 授权方式 &a…

C++高级特性:异常概念与处理机制(十四)

1、异常的基本概念 异常:是指在程序运行的过程中发生的一些异常事件(如:除数为0,数组下标越界,栈溢出,访问非法内存等) C的异常机制相比C语言的异常处理: 函数的返回值可以忽略&…

Mongodb支持事务吗?

一、概念 1.1、MongoDB事务简介 MongoDB 是一个非关系型数据库管理系统,最初并不支持事务。然而,随着时间的推移,MongoDB 在其4.0版本中引入了多文档事务支持,使得在单个集合中执行多个操作成为可能。 In MongoDB, an operation…

C#面:阐述什么是泛型,泛型的优点有哪些?

泛型是 C# 中的一种特性,它允许我们编写可以在不同类型上工作的可重用代码。 通过使用泛型,我们可以编写更加灵活和通用的代码,而不需要为每种类型都编写重复的代码。 泛型的优点有以下几个方面: 代码重用:使用泛型可…

装饰器模式

一、实现原理 装饰器设计模式(Decorator)是一种结构型设计模式,它允许动态地为对象添加新的行为。它通过创建一个包装器来实现,即将对象放入一个装饰器类中,再将装饰器类放入另一个装饰器类中,以此类推&am…

nginx反向代理

简介 Nginx反向代理是一种服务器架构模式,它允许Nginx服务器接收客户端的请求,然后将这些请求转发到上游服务器(例如应用服务器)进行处理,并将处理后的响应返回给客户端。在这个过程中,Nginx充当了客户端和…

如何提交已暂存的更改到本地仓库?

文章目录 如何提交已暂存的更改到本地Git仓库?步骤1:确认并暂存更改步骤2:提交暂存的更改到本地仓库 如何提交已暂存的更改到本地Git仓库? 在Git版本控制系统中,当你对项目文件进行修改后,首先需要将这些更…

前端开发攻略---用原生JS在网页中也能实现 文本转语音!

1、原理 语音合成 (也被称作是文本转为语音,英语简写是 tts) 包括接收 app 中需要语音合成的文本,再在设备麦克风播放出来这两个过程。 Web API中对此有一个主要控制接口 SpeechSynthesis,外加一些处理如何表示要被合成的文本 (也被称为 utte…

(避雷指引:管理页面超时问题)windows下载安装RabbitMQ

一、背景: 学习RabbitMQ过程中,由于个人电脑性能问题,直接装在windows去使用RabbitMQ,根据各大网友教程,去下载安装完之后,使用web端进行简单的入门操作时,总是一直提示超时,要么容…

2024年华为OD机试真题-考勤信息-Python-OD统一考试(C卷D卷)

题目描述: 公司用一个字符串来表示员工的出勤信息: absent:缺勤 late:迟到 leaveearly:早退 present:正常上班 现需根据员工出勤信息,判断本次是否能获得出勤奖,能获得出勤奖的条件如下: 缺勤不超过一次;没有连续的迟到/早退;任意连续7次考勤,缺勤/迟到/早退不超过…

GaussDB轻量化运维管理工具介绍

前言 本期课程将从管理平台的架构出发,结合平台的实例管理、实例升级、容灾管理和监控告警的功能和操作介绍,全面覆盖日常运维操作,带您理解并熟练运用GaussDB运维平台完成运维工作。 一、GaussDB 运维管理平台简介 开放生态层 友好Web界面…

Python 基于docker部署的Mysql备份查询脚本

前言 此环境是基于docker部署的mysql,docker部署mysql可以参考如下链接: docker 部署服务案例-CSDN博客 颜色块文件 rootbogon:~ 2024-04-18 16:34:23# cat DefaultColor.py ######################################################################…

Python爬虫入门指南--爬虫技术的由来、发展与未来--实战课程大赠送

爬虫,也称为网络爬虫或网络蜘蛛,是一种自动化程序,专门用于遍历互联网并收集数据。这种技术的起源、发展和未来都与互联网紧密相连,并在信息检索、数据挖掘等多个领域发挥着不可或缺的作用。 "免费IP池大放送!助…

我的读书摘记《点燃孩子的学习动力:关于儿童学习兴趣的真相》

德韦克认为乔丹的经历揭示了那些最卓越的学习者身上的一个秘密:人的天赋,是可以不断发展的!不管早期的天赋如何,人终将不断超越自己,发展自己的天赋。 思维方式决定了学习的成功与否!这也意味着&#xff0…