识蒸馏十大关键概念详解:从教师-学生范式到模型压缩和重生网络

server/2024/9/23 2:02:23/

知识蒸馏(Knowledge Distillation)任务通常会使用以下术语和表述:

Knowledge Distillation (KD): 知识蒸馏的直接称呼,指从一个大型复杂的教师模型(teacher model)中提取知识,并传递给一个小型简单的学生模型(student model)的过程。
Teacher-Student Framework: 教师-学生框架,描述知识蒸馏中的双模型结构,即先用数据训练一个性能强大的教师模型,再用教师模型指导学生模型的训练,使其达到相近的性能水平。
Model Compression: 模型压缩,知识蒸馏的主要动机之一,即通过蒸馏获得参数更少、计算更快的学生模型,便于部署和应用。
Knowledge Transfer: 知识迁移,指教师模型向学生模型传递其学习到的知识表示和决策能力,使学生模型能够继承和吸收教师模型的优点。
Soft Targets: 软目标,指用教师模型的预测概率分布(而非硬标签)作为学生模型训练的监督信号,可以传递更多的知识和信息。
Temperature Scaling: 温度缩放,一种用于软化教师模型预测概率分布的技巧,通过调节温度参数控制分布的平滑度,以便学生模型更好地学习。
Kullback-Leibler (KL) Divergence: KL散度,常用于度量学生模型和教师模型预测分布之间的差异,作为蒸馏过程中的损失函数之一。
Hint Learning: 提示学习,一种蒸馏的变体方法,让教师模型的中间层输出(而非最终预测)指导学生模型的训练,以传递更细粒度的知识。
Born-Again Networks: 重生网络,指用知识蒸馏迭代训练同构网络(即教师和学生有相同的架构),使模型性能不断提升的方法。
Self-Distillation: 自蒸馏,一种特殊形式的知识蒸馏,where the student and teacher models are identical, aiming to improve the model’s own knowledge and performance.

识蒸馏十大关键概念详解:从教师-学生范式到模型压缩和重生网络

相关文章

Leetcode—1329. 将矩阵按对角线排序【中等】(unordered_map、priority_queue)

【算法】唯一分解定理及最lcm和gcd关系宝石组合

Java进阶-JINQ详解与使用

selenium 4.x 之验证码处理（python）

SVM原理：怎么实现维度映射的；核矩阵（Kernel Matrix）；多项式核：高斯核（径向基函数RBF）：线性核：

类和对象【四】运算符重载

Python面试十问

【redis】redix在Linux下的环境配置和redis的全局命令