相关论文链接如下:
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
文章目录
- 一、论文脑图
- 二、论文解读
- 2.1 研究背景
- 2.2 研究方法
- 2.3 实验设置
- 2.4 实验结果
- 2.5 结果讨论
- 2.6 研究结论
- 三、GRPO算法
- 四、其他参考资料
一、论文脑图
《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》于2024年12月26日由DeepSeek-AI发表,介绍了通过强化学习提升大语言模型推理能力的研究成果,包括DeepSeek-R1-Zero和DeepSeek-R1模型的开发、蒸馏实验以及模型的评估与分析。论文包含内容如下面脑图所示:
二、论文解读
2.1 研究背景
大语言模型(LLMs)发展迅速,后训练成为提升模型能力的重要环节。OpenAI的o1系列模型通过增加思维链推理过程长度在推理任务上取得显著进展,但有效测试时缩放的挑战仍待解决。本文旨在探索通过纯强化学习(RL)提升语言模型推理能力的方法。
2.2 研究方法
① DeepSeek-R1-Zero:直接在基础模型上应用RL,不依赖监督微调(SFT)。采用组相对策略优化(GRPO)算法,以节省训练成本。使用基于规则的奖励系统,包括准确性奖励和格式奖励。设计训练模板,引导模型先产生推理过程再给出答案。训练过程中,模型性能稳步提升,在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,通过多数投票可进一步提升至86.7%,与OpenAI-o1-0912相当。还展现出自我验证、反思和生成长思维链等能力,训练中出现“aha moment”,但存在可读性差和语言混合等问题。
② DeepSeek-R1:为解决DeepSeek-R1-Zero的问题并进一步提升性能,构建并收集少量长思维链(CoT)数据对基础模型进行微调作为RL的起始点。采用与DeepSeek-R1-Zero相同的大规模RL训练过程,并引入语言一致性奖励以减轻语言混合问题。在推理导向的RL收敛后,通过拒绝采样收集SFT数据,包括推理数据和非推理数据,对模型进行两轮微调。最后进行全场景的RL训练,结合奖励信号和多样化提示分布,使模型在推理的同时更符合人类偏好。
③ 蒸馏:使用DeepSeek-R1生成的800k样本对Qwen和Llama等开源模型进行直接微调,使小模型具备推理能力。在蒸馏过程中仅应用SFT,不进行RL训练,以展示蒸馏技术的有效性。
2.3 实验设置
① 评估基准:使用多个基准测试评估模型,包括知识类的MMLU、MMLU-Pro、GPQA Diamond等,编码相关的LiveCodeBench、Codeforces等,以及数学类的AIME 2024、MATH-500等。还在开放式生成任务中使用LLMs作为评判进行评估。
② 评估提示:不同基准测试采用不同的提示设置,如MMLU等使用simpleevals框架的提示,MMLU-Redux采用Zero-Eval提示格式,部分基准测试根据情况对提示进行修改以适应零样本设置。
③ 基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini、OpenAI-o1-1217等强基线模型进行比较,对于蒸馏模型还与QwQ-32B-Preview进行对比。
④ 评估设置:设置模型的最大生成长度为32,768 tokens,采用pass@𝑘评估方法,使用特定的采样温度和top-P值生成多个响应,计算pass@1来评估模型性能。对于AIME 2024,还报告consensus(多数投票)结果。
2.4 实验结果
①DeepSeek-R1评估:在教育知识基准测试中,DeepSeek-R1比DeepSeek-V3表现更优,在处理STEM相关问题上准确性更高。在FRAMES长上下文依赖问答任务、IF-Eval格式指令遵循任务、AlpacaEval2.0和ArenaHard写作与开放域问答任务中表现出色。在数学任务上与OpenAI-o1-1217相当,在编码算法任务中表现优异,但在工程导向的编码任务上还有提升空间。在中文SimpleQA基准测试中,由于安全RL的影响表现不如DeepSeek-V3。
② 蒸馏模型评估:蒸馏后的小模型表现出色,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上超过QwQ-32B-Preview,DeepSeek-R1-14B在所有评估指标上超越QwQ-32B-Preview,DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。
2.5 结果讨论
① 蒸馏与强化学习对比:实验表明,将强大模型的推理模式蒸馏到小模型中效果显著,小模型通过本文的大规模RL训练难以达到蒸馏模型的性能。虽然蒸馏策略经济有效,但要进一步提升模型智能仍需更强大的基础模型和大规模RL训练。
② 失败尝试分析:尝试过程中发现过程奖励模型(PRM)存在难以定义推理步骤、难以判断中间步骤正确性以及易出现奖励破解等问题;蒙特卡罗树搜索(MCTS)在训练扩展时面临搜索空间大、模型易陷入局部最优以及价值模型训练困难等挑战。
2.6 研究结论
DeepSeek-R1-Zero通过纯RL在多种任务中取得了不错的性能,DeepSeek-R1借助冷启动数据和迭代RL微调表现更强大,在一系列任务上与OpenAI-o1-1217性能相当。通过蒸馏,小模型也能获得强大的推理能力。未来研究方向包括提升模型的通用能力、解决语言混合问题、优化提示工程以及增强在软件工程任务上的表现。
三、GRPO算法
四、其他参考资料
- B站ZOMI老师DeepSeek技术解读
- 张俊林:探讨DeepSeek R1和Kimi K1.5技术路线,以及与MCST的关联