知识蒸馏
在学校DeepSeek的技术文章,对于其中的“基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个稠密模型(1.5B、7B、 8B、14B、32B、70B参数规模)”,有点困惑所以详细的学习和研究了一下。
知识蒸馏是什么
知识蒸馏是一种将知识从一个较大、较复杂的教师模型转移到一个较小、较简单的学生模型的技术,以 Qwen 和 Llama 为基础对 DeepSeek - R1 进行知识蒸馏,具体过程如下:
准备阶段
- 选择教师模型和学生模型:确定 DeepSeek - R1 作为教师模型,以 Qwen 或 Llama 架构为基础的模型作为学生模型,并根据需求确定学生模型的参数规模(如 1.5B、7B 等)。
- 准备数据集:收集用于训练和蒸馏的大规模文本数据集,这些数据应涵盖各种领域和语言场景,以确保模型能够学习到丰富的语言知识和模式。
模型训练阶段
- 教师模型推理:将训练数据输入到 DeepSeek - R1 中,教师模型对每个输入样本进行前向传播计算,得到相应的输出结果,这些输出结果包括软标签、中间层特征等信息,将作为