DeepSeek-R1深度解读

ops/2025/3/15 15:17:44/

deepseek提出了一种通过强化学习(RL)激励大语言模型(LLMs)推理能力的方法,个人认为最让人兴奋的点是:通过RL发现了一个叫“Aha Moment”的现象,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek学会为问题分配更多的思考时间。性能直接达到国际顶流水平,这不仅实现了了大语言生成模型到推理模型0-1的越阶,而且成功打破美国对AI技术和高端芯片的封锁。

同时发布了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通过纯 RL 训练和多阶段训练提升了模型在数学、编码等任务中的推理能力,并通过模型蒸馏将推理能力迁移到更小的模型。

研究背景与目标

  1. LLM 推理能力的重要性:近年来,大型语言模型(LLMs)在推理能力上取得显著进展,如 OpenAI 的 o1 系列模型通过增加思维链(CoT)长度提升了数学、编码等任务的表现。然而,如何有效提升测试时的推理能力仍是研究热点。
  2. 现有方法的局限性:现有方法如过程奖励模型、搜索算法等虽有一定效果,但未达到与 OpenAI o1 系列模型相当的通用推理性能。
  3. 研究目标:探索纯强化学习(RL)在提升 LLM 推理能力中的潜力,无需监督微调(SFT),并通过多阶段训练和模型蒸馏进一步优化性能。

模型架构与方法

  1. DeepSeek-R1-Zero
    • 纯 RL 训练:直接在基础模型(DeepSeek-V3-Base)上应用 Group Relative Policy Optimization (GRPO) 算法,无需 SFT 数据。GRPO公式看着十分复杂,拆解开来看看并不难懂:其中:\theta:待优化的策略参数;G:每个问题生成的候选答案数量(组大小);\pi _{\theta _{old}}:旧策略(即上一轮迭代的策略);A_{i}:优势函数(Advantage),反映第i个答案的相对质量,将原始奖励归一化;\varepsilon:剪切阈值(通常取0.1-0.3);\beta:KL散度正则化系数。红框公式最原始的强化学习公式,衡量新策略与旧策略生成答案的概率差异。若概率比>1,表示新策略更倾向于生成该答案。黄框公式:剪切机制,设置奖励上下阈值clip一下,防止策略更新幅度过大,确保训练稳定性。蓝框公式将原始奖励和clip后的奖励取最小值。绿框公式KL散度惩罚,该惩罚项避免模型过度拟合短期奖励,维持生成文本的多样性和安全性。黑色公式:对同一问题q生成G个答案,使用组内比较代替传统Critic模型。

    • 奖励模型:基于规则的奖励系统,包括准确性奖励(验证答案正确性)和格式奖励(强制使用特定格式输出推理过程)。
    • 训练模板:引导模型生成推理过程和答案,结构化为 “推理过程” 和 “答案” 两部分。
    • 自进化与表现:在 AIME 2024 基准测试中,pass@1 从 15.6% 提升至 71.0%,多数投票后达 86.7%,接近 OpenAI-o1-0912 的水平。模型还表现出自我验证、反思等能力。“顿悟时刻”。这个模型学会了用拟人化的语气重新思考。
  2. DeepSeek-R1
    • 冷启动数据:收集数千条长 CoT 数据进行微调,解决 DeepSeek-R1-Zero 可读性差、语言混合等问题。
    • 多阶段训练:包括冷启动微调、推理导向的 RL(加入语言一致性奖励)、拒绝采样生成新 SFT 数据、多场景 RL(结合奖励信号优化有用性和无害性)。
    • 性能提升:在 AIME 2024 上 pass@1 达 79.8%,超过 OpenAI-o1-1217,MATH-500 达 97.3%,与 o1-1217 持平。
  3. 模型蒸馏
    • 方法:使用 DeepSeek-R1 生成的 800k 数据微调开源模型(如 Qwen、Llama 系列),仅进行 SFT 而不进行 RL。
    • 结果:蒸馏后的模型在多个基准测试中表现优异,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上 pass@1 达 72.6%,超过 o1-mini。

实验结果

  1. 基准测试表现
    • 数学任务:DeepSeek-R1 在 AIME 2024(79.8%)和 MATH-500(97.3%)上接近或超过 OpenAI-o1-1217。
    • 编码任务:在 Codeforces 上 Elo 评分为 2029,超过 96.3% 的人类选手;LiveCodeBench pass@1 达 65.9%。
    • 知识问答:MMLU(90.8%)、GPQA Diamond(71.5%)等任务上优于 DeepSeek-V3,稍逊于 o1-1217。
  2. 蒸馏模型对比:蒸馏后的小模型(如 14B、32B)在多个任务上显著优于同类开源模型,证明了大模型推理模式的可迁移性。

讨论与结论

  1. 蒸馏 vs. RL:蒸馏更高效,小模型通过学习大模型的推理模式即可获得优秀性能;而直接对小模型进行 RL 训练需大量计算资源且效果有限。
  2. 未成功尝试:过程奖励模型(PRM)因难以定义细粒度步骤和奖励欺诈问题效果不佳;蒙特卡洛树搜索(MCTS)因搜索空间过大和价值模型训练困难未能显著提升性能。
  3. 结论:纯 RL 可有效提升 LLM 推理能力,多阶段训练和冷启动数据进一步优化了模型表现。模型蒸馏为小模型赋予了强大的推理能力,开源模型将推动相关研究。

未来工作方向

  1. 通用能力扩展:提升在函数调用、多轮对话等任务上的表现。
  2. 语言混合问题:优化非中 / 英文查询的处理能力。
  3. 提示工程优化:减少模型对提示的敏感性,提升零样本性能。
  4. 软件工程任务:增加相关 RL 训练数据,提高在软件工程项目中的表现。

http://www.ppmy.cn/ops/165970.html

相关文章

【品铂科技】在高精度定位行业内的口碑怎么样?

1. ‌技术实力与行业认可‌ 公司自主研发的ABELL无线实时定位系统在复杂环境中(如工业、司法监狱等)展现出厘米级(5-10厘米)高精度定位能力,客户反馈系统稳定性强、抗干扰能力突出,成为行业技术标杆‌。参…

第八节:红黑树(初阶)

【本节要点】 红黑树概念红黑树性质红黑树结点定义红黑树结构红黑树插入操作的分析 一、红黑树的概念与性质 1.1 红黑树的概念 红黑树 ,是一种 二叉搜索树 ,但 在每个结点上增加一个存储位表示结点的颜色,可以是 Red和 Black 。 通过对 任何…

视频理解之Actionclip(论文宏观解读)

配合解读代码解读 1.研究背景 1. 视频行为识别的重要性 视频行为识别是视频理解领域的核心任务之一,旨在通过分析视频内容来识别和分类其中的人物行为或活动。这一任务在多个领域具有重要的应用价值,例如智能监控、人机交互、自动驾驶、医疗健康等。随…

HashMap 中的 key 值类型

在 Java 中,HashMap 的 key 一般建议使用 String 而不是自定义对象,主要有以下几个原因: 1. String 是不可变对象(Immutable) String 在 Java 中是不可变的,一旦创建就不会改变其哈希值 (hashCode)。Hash…

嵌入式学习L6网络编程D7TCP/ip协议

wireshark抓包工具 要下到linux里面去 windos这里要点wife然后就可以抓包 上面是过滤器 eth_ip头原理 就是IPV4 tcp三次握手

nerfstudio以及相关使用记录(长期更新)

NeRFStudio 是NeRF/3DGS研究和开发的集成平台。 提供了一个用户友好的界面和一系列工具,帮助研究人员和开发者更高效地构建、训练和评估 NeRF 模型。以前使用的时候用完就丢一边了,没有注意记录,现在有一个工程调用了nerfstudio,部…

DeepLabv3+改进9:在主干网络中添加SpatialGroupEnhance|通过为每个语义组中的每个空间位置生成注意力因子来调整每个子特征的重要性

🔥【DeepLabv3+改进专栏!探索语义分割新高度】 🌟 你是否在为图像分割的精度与效率发愁? 📢 本专栏重磅推出: ✅ 独家改进策略:融合注意力机制、轻量化设计与多尺度优化 ✅ 即插即用模块:ASPP+升级、解码器 PS:订阅专栏提供完整代码 论文简介 卷积神经网络(CNNs)…

软考计算机知识-流水线

计算机流水线类似工业生产过程的流水线,在同一时间,m个部件进行不同的操作,完成对不同对象的处理。 理解重叠:让不同的指令在时间上重叠地解释。在解释第k条指令的操作完成之前,就可以开始解释第k1条指令。 题1&#…