DeepSeek-R1深度解读

embedded/2025/3/16 23:53:48/

deepseek提出了一种通过强化学习(RL)激励大语言模型(LLMs)推理能力的方法,个人认为最让人兴奋的点是:通过RL发现了一个叫“Aha Moment”的现象,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek学会为问题分配更多的思考时间。性能直接达到国际顶流水平,这不仅实现了了大语言生成模型到推理模型0-1的越阶,而且成功打破美国对AI技术和高端芯片的封锁。

同时发布了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通过纯 RL 训练和多阶段训练提升了模型在数学、编码等任务中的推理能力,并通过模型蒸馏将推理能力迁移到更小的模型。

研究背景与目标

  1. LLM 推理能力的重要性:近年来,大型语言模型(LLMs)在推理能力上取得显著进展,如 OpenAI 的 o1 系列模型通过增加思维链(CoT)长度提升了数学、编码等任务的表现。然而,如何有效提升测试时的推理能力仍是研究热点。
  2. 现有方法的局限性:现有方法如过程奖励模型、搜索算法等虽有一定效果,但未达到与 OpenAI o1 系列模型相当的通用推理性能。
  3. 研究目标:探索纯强化学习(RL)在提升 LLM 推理能力中的潜力,无需监督微调(SFT),并通过多阶段训练和模型蒸馏进一步优化性能。

模型架构与方法

  1. DeepSeek-R1-Zero
    • 纯 RL 训练:直接在基础模型(DeepSeek-V3-Base)上应用 Group Relative Policy Optimization (GRPO) 算法,无需 SFT 数据。GRPO公式看着十分复杂,拆解开来看看并不难懂:其中:\theta:待优化的策略参数;G:每个问题生成的候选答案数量(组大小);\pi _{\theta _{old}}:旧策略(即上一轮迭代的策略);A_{i}:优势函数(Advantage),反映第i个答案的相对质量,将原始奖励归一化;\varepsilon:剪切阈值(通常取0.1-0.3);\beta:KL散度正则化系数。红框公式最原始的强化学习公式,衡量新策略与旧策略生成答案的概率差异。若概率比>1,表示新策略更倾向于生成该答案。黄框公式:剪切机制,设置奖励上下阈值clip一下,防止策略更新幅度过大,确保训练稳定性。蓝框公式将原始奖励和clip后的奖励取最小值。绿框公式KL散度惩罚,该惩罚项避免模型过度拟合短期奖励,维持生成文本的多样性和安全性。黑色公式:对同一问题q生成G个答案,使用组内比较代替传统Critic模型。

    • 奖励模型:基于规则的奖励系统,包括准确性奖励(验证答案正确性)和格式奖励(强制使用特定格式输出推理过程)。
    • 训练模板:引导模型生成推理过程和答案,结构化为 “推理过程” 和 “答案” 两部分。
    • 自进化与表现:在 AIME 2024 基准测试中,pass@1 从 15.6% 提升至 71.0%,多数投票后达 86.7%,接近 OpenAI-o1-0912 的水平。模型还表现出自我验证、反思等能力。“顿悟时刻”。这个模型学会了用拟人化的语气重新思考。
  2. DeepSeek-R1
    • 冷启动数据:收集数千条长 CoT 数据进行微调,解决 DeepSeek-R1-Zero 可读性差、语言混合等问题。
    • 多阶段训练:包括冷启动微调、推理导向的 RL(加入语言一致性奖励)、拒绝采样生成新 SFT 数据、多场景 RL(结合奖励信号优化有用性和无害性)。
    • 性能提升:在 AIME 2024 上 pass@1 达 79.8%,超过 OpenAI-o1-1217,MATH-500 达 97.3%,与 o1-1217 持平。
  3. 模型蒸馏
    • 方法:使用 DeepSeek-R1 生成的 800k 数据微调开源模型(如 Qwen、Llama 系列),仅进行 SFT 而不进行 RL。
    • 结果:蒸馏后的模型在多个基准测试中表现优异,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上 pass@1 达 72.6%,超过 o1-mini。

实验结果

  1. 基准测试表现
    • 数学任务:DeepSeek-R1 在 AIME 2024(79.8%)和 MATH-500(97.3%)上接近或超过 OpenAI-o1-1217。
    • 编码任务:在 Codeforces 上 Elo 评分为 2029,超过 96.3% 的人类选手;LiveCodeBench pass@1 达 65.9%。
    • 知识问答:MMLU(90.8%)、GPQA Diamond(71.5%)等任务上优于 DeepSeek-V3,稍逊于 o1-1217。
  2. 蒸馏模型对比:蒸馏后的小模型(如 14B、32B)在多个任务上显著优于同类开源模型,证明了大模型推理模式的可迁移性。

讨论与结论

  1. 蒸馏 vs. RL:蒸馏更高效,小模型通过学习大模型的推理模式即可获得优秀性能;而直接对小模型进行 RL 训练需大量计算资源且效果有限。
  2. 未成功尝试:过程奖励模型(PRM)因难以定义细粒度步骤和奖励欺诈问题效果不佳;蒙特卡洛树搜索(MCTS)因搜索空间过大和价值模型训练困难未能显著提升性能。
  3. 结论:纯 RL 可有效提升 LLM 推理能力,多阶段训练和冷启动数据进一步优化了模型表现。模型蒸馏为小模型赋予了强大的推理能力,开源模型将推动相关研究。

未来工作方向

  1. 通用能力扩展:提升在函数调用、多轮对话等任务上的表现。
  2. 语言混合问题:优化非中 / 英文查询的处理能力。
  3. 提示工程优化:减少模型对提示的敏感性,提升零样本性能。
  4. 软件工程任务:增加相关 RL 训练数据,提高在软件工程项目中的表现。

http://www.ppmy.cn/embedded/173184.html

相关文章

Spring Cloud LoadBalancer 原理与实践

背景 当前我们的微服务架构基于Spring Cloud Alibaba体系,通过定制NacosRule实现了跨集群访问和灰度发布功能。但随着Spring Cloud与Nacos版本升级,官方已弃用Ribbon转向LoadBalancer,这要求我们完成以下技术升级: 负载均衡机制…

贝叶斯分层回归(Bayesian Hierarchical Regression)是一种基于贝叶斯统计理论的数据分析方法

贝叶斯分层回归(Bayesian Hierarchical Regression)是一种基于贝叶斯统计理论的数据分析方法,它在多个领域都有广泛应用。以下是对其原理、模型构建步骤和优势的介绍: 原理 贝叶斯分层回归将传统回归模型中的参数视为随机变量&a…

自动化测试 | Python+PyCharm+Google Chrome+Selenium 环境安装记录

目录 环境版本 浏览器与驱动 Python 安装 测试 PyCharm 安装 开启软件 开始破解 Selenium 安装 测试 自动化的其实就是模拟手工点击的方式 环境版本 Python:3.11.8 PyCharm:2021.1.3 Selenium:x.x 浏览器与驱动 114.0.5735.90 …

MySQL数据库知识总结

MySQL数据库知识总结 一、基本概念及其介绍二、数据库中的数据类型(一)数值类型(二)字符串类型(三)日期类型 三、数据库基础语法(一)数据库的常用操作(二)数据…

ES怎么通过客户端操作和查询/curl操作指令

以下是使用 Python 客户端操作 Elasticsearch 的完整指南,涵盖 索引创建、向量存储、数据插入和查询操作。我们将以 Elasticsearch 8.x 版本为例,结合 elasticsearch-py 客户端和向量功能(如 dense_vector 类型)进行说明。 —### …

基于Asp.net的医院病历管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

【蓝桥杯】雪地工程核弹引爆控制器最小数量计算

问题描述 危机纪元 2211 年,由罗辑领导的雪地工程正式进入部署,雪地工程中布置了大量的核弹,整个工程由信号中转站和起爆装置构成,形成了一棵具有 nn 个点 n−1n−1 条边的有根树,11 号点为根节点,树边为 …

在终端中用code命令打开vscode并加载当前目录了

注册code命令 启动 VSCode 编辑器,按 shift command p输入 shell command,选择 Install ‘code’ command in PATH 选项, 安装code 命令 此操作会把 code 命令添加到系统的环境变量里。 打开 iTerm2 终端 在 iTerm2 中,cd 代码库根目录, …