目录
- 引言
1.1 大模型时代与微调的重要性
1.2 本文目的与结构概述 - DeepSeek-R1 模型基础
2.1 模型简介
2.1.1 模型架构
2.1.2 预训练数据与目标
2.2 模型特点与优势
2.2.1 语言理解与生成能力
2.2.2 计算效率与扩展性 - 微调(SFT)基础概念
3.1 微调的定义与作用
3.2 监督微调(SFT)与其他微调方法的区别
3.3 SFT 在实际应用中的价值 - SFT 技术原理
4.1 损失函数设计
4.1.1 常见损失函数及其适用性
4.1.2 DeepSeek-R1 SFT 损失函数选择与优化
4.2 梯度计算与反向传播
4.2.1 深度学习中的梯度计算原理
4.2.2 在 DeepSeek-R1 微调中的具体实现
4.3 优化器选择
4.3.1 常见优化器介绍
4.3.2 针对 DeepSeek-R1 SFT 的优化器调优 - 数据准备
5.1 数据集选择
5.1.1 公开数据集与自有数据集
5.1.2 数据集质量评估指标
5.2 数据清洗与预处理
5.2.1 文本清洗方法
5.2.2 数据标注与格式转换
5.3 数据划分
5.3.1 训练集、验证集和测试集的作用
5.3.2 划分比例与方法 - 微调环