【KD】知识蒸馏(knowledge distillation)简单介绍

news/2024/11/20 19:45:41/

最近学到了知识蒸馏的相关知识,来简单总结一下૮꒰ ˶• ༝ •˶꒱ა。


 知识蒸馏 

       知识蒸馏,是一种模型压缩的手段。通过训练学生模仿教师的行为,将嵌入在大的教师模型中的知识迁移到小的学生模型。

例如,TinyBERT(Jiao et al.,2020)通过在通用领域的大规模语料库上执行通用的蒸馏,首次得到了一个通用的蒸馏小模型,然后在微调阶段用下游任务数据执行面向特定任务的蒸馏。DynaBERT通过从全量模型到小规模的子模型的知识蒸馏,训练了一个宽度自适应和深度自适应的BERT模型。

        知识蒸馏也可以用于剪枝,以提高性能,例如块剪枝(Lagunas et al,2021)和CoFi(Xia et al,2022)。

知识蒸馏与迁移学习的关系

知识蒸馏中的温度设置


http://www.ppmy.cn/news/1295419.html

相关文章

C语言之详解数组【附三子棋和扫雷游戏实战】

文章目录 一、一维数组的创建和初始化1、数组的创建2、数组的初始化3、一维数组的使用4、 一维数组在内存中的存储 二、二维数组的创建和初始化1、二维数组的创建2、二维数组的初始化3、二维数组的使用4、二维数组在内存中的存储 三、数组越界边界值考虑不当导致越界访问数组大…

智能寻迹避障机器人设计(第一章)

1 绪论 1.1 研究背景及意义 伴随着社会经济的日益发展,汽车价格时续走低,汽车便成了人们出行工具的首先。汽车的使用总量也逐年创新高,因而交通拥堵情况随处可见,撞车事件时常发生,造成的人员伤亡数不胜数。根据不完…

C#,入门教程(10)——常量、变量与命名规则的基础知识

上一篇: C#,入门教程(09)——运算符的基础知识https://blog.csdn.net/beijinghorn/article/details/123908269 C#用于保存计算数据的元素,称为“变量”。 其中一般不改变初值的变量,称为常变量,简称“常量”。 无论…

力扣(leetcode)第459题重复的子字符串(Python)

459.重复的子字符串 题目链接:459.重复的子字符串 给定一个非空的字符串 s ,检查是否可以通过由它的一个子串重复多次构成。 示例 1: 输入: s “abab” 输出: true 解释: 可由子串 “ab” 重复两次构成。 示例 2: 输入: s “aba” 输出: false 示例 …

申请域名SSL证书并自动推送至阿里云 CDN

近期国外SSL证书厂商调整了免费证书的续签规则,一年期的证书全部取消,现在只能申请90天有效期的免费证书。普通web站点可以通过宝塔面板或部署acme.sh等证书自动管理工具来实现自动化申请和部署,但是阿里云之类的CDN服务就只能通过手动或Open…

Unity SVN更新提交小工具

Unity SVN更新提交小工具 前言使用说明必要前提源码参数说明 感谢 前言 Unity开发时每次都要到文件夹中操作SVN,做了一个小工具能够在Editor中直接操作。 使用说明 必要前提 前提是要安装好SVN,在文件夹右键能够看到安装的SVN 源码 using System…

Windows:笔记本电脑设置休眠教程

前言 不知道大家在使用【Windows】笔记本有没有这个习惯,我会把他的电池选项的【休眠】设置进行打开。因为作为我们开发人员电脑一般是一周关一次机,有时候一个月关一次机。这时候【休眠】功能就给我们提供了一个好处,我们选择了【休眠】后电…

在IDEA中使用git分支进行开发然后合并到Master分支,2022.1.x版本

在实际开发过程中,为了避免因为在开发中出现的问题以及方便发布版本,如果是多版本发布的情况相下,我们通常需要采用分支进行开发,这个时候,我们就需要了解git分支的相关知识点了,本篇博客也是博主在实际公司…