知识蒸馏(Knowledge Distillation)任务通常会使用以下术语和表述:
- Knowledge Distillation (KD): 知识蒸馏的直接称呼,指从一个大型复杂的教师模型(teacher model)中提取知识,并传递给一个小型简单的学生模型(student model)的过程。
- Teacher-Student Framework: 教师-学生框架,描述知识蒸馏中的双模型结构,即先用数据训练一个性能强大的教师模型,再用教师模型指导学生模型的训练,使其达到相近的性能水平。
- Model Compression: 模型压缩,知识蒸馏的主要动机之一,即通过蒸馏获得参数更少、计算更快的学生模型,便于部署和应用。
- Knowledge Transfer: 知识迁移,指教师模型向学生模型传递其学习到的知识表示和决策能力,使学生模型能够继承和吸收教师模型的优点。
- Soft Targets: 软目标,指用教师模型的预测概率分布(而非硬标签)作为学生模型训练的监督信号,可以传递更多的知识和信息。
- Temperature Scaling: 温度缩放,一种用于软化教师模型预测概率分布的技巧,通过调节温度参数控制分布的平滑度,以便学生模型更好地学习。
- Kullback-Leibler (KL) Divergence: KL散度,常用于度量学生模型和教师模型预测分布之间的差异,作为蒸馏过程中的损失函数之一。
- Hint Learning: 提示学习,一种蒸馏的变体方法,让教师模型的中间层输出(而非最终预测)指导学生模型的训练,以传递更细粒度的知识。
- Born-Again Networks: 重生网络,指用知识蒸馏迭代训练同构网络(即教师和学生有相同的架构),使模型性能不断提升的方法。
- Self-Distillation: 自蒸馏,一种特殊形式的知识蒸馏,where the student and teacher models are identical, aiming to improve the model’s own knowledge and performance.