迁移学习--预训练微调

news/2024/10/23 7:22:40/

目录

1、迁移学习作用

2、迁移学习的途径

3、相关的领域

4、在计算机视觉中的应用

5、迁移学习的办法 

预训练模型 

微调

6、总结


1、迁移学习作用

定义:能在一个任务学习一个模型,然后用来解决相关的别的任务,这样我们在一个地方花的时间,学习的一些知识,研究的一些看法可以在另外一个地方被使用到;

迁移学习实在深度学习出圈的,因为在深度学习中需要训练很多的深层神经网络,需要很多的数据,代价也很高。

2、迁移学习的途径

  • 做好一个模型,将其做成一个特征提取的模块
  1. Word2Vec,在文本上训练一个单层神经网络,在训练好之后,每一个词对应一个特征,然后用这个特征去做别的任务;
  2. Resnet,对图片进行提取特征,然后,用这个特征作为另一个模型的输入,这样假设效果非常好,这样就可以代替人工去提取特征的步骤;
  3. I3D用来对视频提取特征。

  • 在一个相关的任务上训练一个模型,然后,在另一个任务上直接使用
  • 训练好一个模型,然后,在一个新的任务上对其做微调,使模型能更好的适应新的任务

3、相关的领域

  • 半监督学习:利用没有标号的数据,让有标号的数据变得好
  • 在极端的条件下,可以做zero-shot(一个任务有很多的类别但不会告诉你样本)或few-shot learning(一个任务就给你一些样本)
  • Multi-task learning(多任务学习):每一个任务都有它自己的数据,但是数据不是很够,可是任务之间相关,那么可以将所有的数据放在一起,然后同时训练多个任务出来,这样我们洗网能从别的任务之中获益

4、在计算机视觉中的应用

  • 在CV中存在了很多大规模标好的数据集(特别是分类问题,因为标号容易);
  • 在CV的迁移学习,我们是希望存在很多数据的一些应用上比较好的模型,能将它的知识拓展到我们自己的任务上去;
  • 通常你自己任务的数据集会比大数据集(ImageNet)要小很多(一开始不会花太多钱去标注很多的数据,正常是标好了一些看看模型效果怎么样,然后好的话再继续投入进去,这样是一个迭代的过程),然后我们想要快速的迭代,看看能不能用比较大的数据集来将一些学到的东西迁移到我们自己的任务上面去

5、迁移学习的办法 

预训练模型 

 作用:可以将 神经网络分成两块,一块编码器(特征提取器,将原始图片的原始像素转化在一个语义空间汇总可以线性可分的一些特征(浅表示或语义也正表示)),一块解码器(简单的线性分类器,将编码器的表示映射成想要的标号,或者做一些决策);

定义:预训练模型(Pre-train):在一个比较大的数据上训练好的一个模型,会具有一定的泛化能力(放到新模型上或新的数据集上,这个模型还是有效果的)【虽然是用于图片分类但是也可以试试目标检测】

微调

  • 将预训练好的模型用在新任务上叫fine-tuning(微调)【通常在深度学习里面,微调能带来最好的效果,但是也有一定的开销】
  • 微调是怎么做的:在新的任务上构建一个新的模型,新的模型的架构要更预训练的模型的架构是一样的;在找到合适的预训练模型之后要初始化我们的模型(将预训练模型的除了最后一层之外(特征提取器)的权重都复制给我们的模型,最后一层的解码器用的还是随机的权重【因为我们的标号和预训练模型的标号是不一样的】);
  • 具体看例子:在初始化之后,就可以开始学习了,这步跟我们平常的学习没有什么不同的;有一点点小做法是,限制fine-tune后的学习率。因为我们初始的结果已经比较好了,已经在想要解的附近了,限制学习率可以使得我们可以不会走太远【一般是用1e-3】;另外是说不要训练太长的时间;这些做法都是为了缩小搜索空间;限制搜索空间的原因:

========================================================================= 

限制搜索空间的其他方法——固定最底层

  • 神经网络通常有一个层次化的,最底层一般是学习了底层的特征,上层的更与语义相关,所以一般来说底层与上面层没有太多的关系,在换了数据集之后泛化性都很好;
  • 最后一层还是随机初始化学习,然后只对某一些层进行改动,最下面那些层在微调时就不去动了(可以说是学习率为0);
  • 固定住多少层是要根据应用来看的,假设应用与预训练模型差别比较大的话,可以多训练一些层;

========================================================================= 

怎么去找微调模型



  • 首先要去找有没有我们想要的预训练模型,然后是看它是在什么样的数据集上训练好的;
  • 可以去的途径(ModelHub、ModelZoom之类的):
  • Tensorflow Hub: https://tfhub.dev/;(允许用户去提交模型)
  • TIMM(把pytorch上能找到的各种代码实现弄过来): https://github.com/rwightman/pytorch-image-models;(ross 自己维护的一个包【文档不错,模型性能暂时一般般】)
  • TIMM使用代码介绍:

========================================================================= 

fine-tuning的一些应用

  • 在大的数据集上训练好模型再微调到自己的应用上在CV领域上广泛的应用;
  • 新的任务包含 目标检测、语义分割等(图片类似但是目标不一样);
  • 在医疗领域等(同样的任务但是图片大相径庭);
  • 现在的观点是微调加速了收敛(微调让初始的点不再试一个随机的点而是一个离最终的目标比较近的点,使得损失比较平滑),但是不一定可以提升精度(一般不会让精度变低,因为它只是改变初始值而已,跟随机初始化没区别,只要走的足够远也能摆脱初始值的影响);

6、总结

  • 通常我们会在大数据上训练预训练好的模型,这种任务通常是图片分类;
  • 然后在关心的任务上把模型的权重初始化成预训练好的模型的权重,当然最后一层也就是解码器是要随机初始化的;
  • 微调一般用一个小一点的学习率进行细微的调整,这样通常会加速收敛,有时可以提升精度但通常不会变差;(所以通常在CV中是经常被推荐的做法)


http://www.ppmy.cn/news/1152744.html

相关文章

20.1CubeMx配置FMC控制SDRAM【W9825G6KH-6】

本文使用stm32h723zgt6的fmc驱动sdram,实现内存扩展 sdram型号W9825G6KH-6 原理图: MCU引脚与SDRAM对应关系 引脚说明: SDRAM引脚: DQ[15:0]:数据线;数据位宽16 A[12:0]:地址线;行地址A[0:12]&#xff…

Springcloud笔记(1)-微服务和springcloud介绍

微服务简介 就是将一个大的应用,拆分成多个小的模块,每个模块都有自己的功能和职责,每个模块可以 进行交互,这就是微服务对于微服务,业界没有严格统一的定义,但是作为“微服务”这名词的发明人,…

Java架构师理解SAAS和多租户

目录 1 云服务的三种模式1.1 IaaS(基础设施即服务)1.2 PaaS(平台即服务)1.3 SaaS(软件即服务)1.4 区别与联系2 SaaS的概述2.1 Saas详解2.2 应用领域与行业前景2.3 Saas与传统软件对比3 多租户SaaS平台的数据库方案3.1 多租户是什么3.2 需求分析3.3 多租户的数据库方案分析…

【C++程序员必修第一课】C++基础课程-06:if 判断

1 本课主要内容: 逻辑判断的应用if 判断:if, if...else, if...else if...else 语句格式和实例代码 2 主要知识点: 思考一个问题 如果学生某科目的考试成绩达到95分以上,则可以评为A,类似这种场…

【JDK21】初体验

IDEA 2023.2.2已支持JDK21 Java 21发布,IntelliJ IDEA 2023.2.2已完美支持。 想要开发Java 21代码的开发者可以升级了! Java新特性 Java 9 - 21:新特性解读 虚拟线程 虚拟线程创建 (1)使用静态构建器方法 &#…

RK平台使用MP4视频做开机动画以及卡顿问题

rk平台android11以后系统都可以使用MP4格式的视频做开机动画,系统源码里面默认使用的是ts格式的视频,其实使用mp4的视频也是可以的。具体修改如下: diff --git a/frameworks/base/cmds/bootanimation/BootAnimation.cpp b/frameworks/base/cmds/bootanimation/BootAnimat…

GitLab使用步骤

GitLab使用步骤 1 注册用户 1 访问:http://10.0.0.203/users/sign_up地址 2 填入注册信息,注册成功,需要管理员审核 3 用root登录,地址:http://10.0.0.203/users/sign_in账号:root密码:xxxx…

使用实验室超声波清洗机有哪些注意事项?

常人很难想象实验室超声波清洗机肩负的重要职责,毕竟日常接触的机会甚少,无法知晓清洗机在实验室中扮演的角色,自然无从得知它在业内所处的地位。先进的实验室超声波清洗机总能让客户眼前一亮,毕竟技术的迭代意味着性能的升级&…