DeepSeek-R1技术报告快速解读

embedded/2025/2/10 7:36:08/

相关论文链接如下:

  1. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
  2. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
    Reinforcement Learning

文章目录

  • 一、论文脑图
  • 二、论文解读
    • 2.1 研究背景
    • 2.2 研究方法
    • 2.3 实验设置
    • 2.4 实验结果
    • 2.5 结果讨论
    • 2.6 研究结论
  • 三、GRPO算法
  • 四、其他参考资料


一、论文脑图

  DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》于2024年12月26日由DeepSeek-AI发表,介绍了通过强化学习提升大语言模型推理能力的研究成果,包括DeepSeek-R1-Zero和DeepSeek-R1模型的开发、蒸馏实验以及模型的评估与分析。论文包含内容如下面脑图所示:
脑图

二、论文解读

2.1 研究背景

  大语言模型(LLMs)发展迅速,后训练成为提升模型能力的重要环节。OpenAI的o1系列模型通过增加思维链推理过程长度在推理任务上取得显著进展,但有效测试时缩放的挑战仍待解决。本文旨在探索通过纯强化学习(RL)提升语言模型推理能力的方法。

2.2 研究方法

  DeepSeek-R1-Zero:直接在基础模型上应用RL,不依赖监督微调(SFT)。采用组相对策略优化(GRPO)算法,以节省训练成本。使用基于规则的奖励系统,包括准确性奖励和格式奖励。设计训练模板,引导模型先产生推理过程再给出答案。训练过程中,模型性能稳步提升,在AIME 2024基准测试中,pass@1分数从15.6%提升到71.0%,通过多数投票可进一步提升至86.7%,与OpenAI-o1-0912相当。还展现出自我验证、反思和生成长思维链等能力,训练中出现“aha moment”,但存在可读性差和语言混合等问题。
  DeepSeek-R1:为解决DeepSeek-R1-Zero的问题并进一步提升性能,构建并收集少量长思维链(CoT)数据对基础模型进行微调作为RL的起始点。采用与DeepSeek-R1-Zero相同的大规模RL训练过程,并引入语言一致性奖励以减轻语言混合问题。在推理导向的RL收敛后,通过拒绝采样收集SFT数据,包括推理数据和非推理数据,对模型进行两轮微调。最后进行全场景的RL训练,结合奖励信号和多样化提示分布,使模型在推理的同时更符合人类偏好。
  蒸馏:使用DeepSeek-R1生成的800k样本对Qwen和Llama等开源模型进行直接微调,使小模型具备推理能力。在蒸馏过程中仅应用SFT,不进行RL训练,以展示蒸馏技术的有效性。

2.3 实验设置

  评估基准:使用多个基准测试评估模型,包括知识类的MMLU、MMLU-Pro、GPQA Diamond等,编码相关的LiveCodeBench、Codeforces等,以及数学类的AIME 2024、MATH-500等。还在开放式生成任务中使用LLMs作为评判进行评估。
  评估提示:不同基准测试采用不同的提示设置,如MMLU等使用simpleevals框架的提示,MMLU-Redux采用Zero-Eval提示格式,部分基准测试根据情况对提示进行修改以适应零样本设置。
  基线模型:与DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini、OpenAI-o1-1217等强基线模型进行比较,对于蒸馏模型还与QwQ-32B-Preview进行对比。
  评估设置:设置模型的最大生成长度为32,768 tokens,采用pass@𝑘评估方法,使用特定的采样温度和top-P值生成多个响应,计算pass@1来评估模型性能。对于AIME 2024,还报告consensus(多数投票)结果。

2.4 实验结果

  DeepSeek-R1评估:在教育知识基准测试中,DeepSeek-R1比DeepSeek-V3表现更优,在处理STEM相关问题上准确性更高。在FRAMES长上下文依赖问答任务、IF-Eval格式指令遵循任务、AlpacaEval2.0和ArenaHard写作与开放域问答任务中表现出色。在数学任务上与OpenAI-o1-1217相当,在编码算法任务中表现优异,但在工程导向的编码任务上还有提升空间。在中文SimpleQA基准测试中,由于安全RL的影响表现不如DeepSeek-V3。
  蒸馏模型评估:蒸馏后的小模型表现出色,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上超过QwQ-32B-Preview,DeepSeek-R1-14B在所有评估指标上超越QwQ-32B-Preview,DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。

2.5 结果讨论

  蒸馏与强化学习对比:实验表明,将强大模型的推理模式蒸馏到小模型中效果显著,小模型通过本文的大规模RL训练难以达到蒸馏模型的性能。虽然蒸馏策略经济有效,但要进一步提升模型智能仍需更强大的基础模型和大规模RL训练。
  失败尝试分析:尝试过程中发现过程奖励模型(PRM)存在难以定义推理步骤、难以判断中间步骤正确性以及易出现奖励破解等问题;蒙特卡罗树搜索(MCTS)在训练扩展时面临搜索空间大、模型易陷入局部最优以及价值模型训练困难等挑战。

2.6 研究结论

   DeepSeek-R1-Zero通过纯RL在多种任务中取得了不错的性能,DeepSeek-R1借助冷启动数据和迭代RL微调表现更强大,在一系列任务上与OpenAI-o1-1217性能相当。通过蒸馏,小模型也能获得强大的推理能力。未来研究方向包括提升模型的通用能力、解决语言混合问题、优化提示工程以及增强在软件工程任务上的表现。

三、GRPO算法

GRPO算法图

四、其他参考资料

  1. B站ZOMI老师DeepSeek技术解读
  2. 张俊林:探讨DeepSeek R1和Kimi K1.5技术路线,以及与MCST的关联

http://www.ppmy.cn/embedded/161022.html

相关文章

Java基础知识(七) -- 集合

1.概述 集合是 Java 中提供的一种容器,可以用来存储多个数据。集合主要分为两大系列:Collection和Map,Collection 表示一组对象,Map表示一组映射关系或键值对。集合和数组既然都是容器,它们有啥区别呢? 数…

Nginx 日志切割:按日期管理日志文件,提升运维效率

🏡作者主页:点击! Nginx-从零开始的服务器之旅专栏:点击! 🐧Linux高级管理防护和群集专栏:点击! ⏰️创作时间:2025年2月9日11点20分 在日常运维中,Nginx…

idea菜单栏、工具栏、前进后退按钮不显示问题

idea菜单栏、工具栏、前进后退按钮不显示问题 菜单/导航栏不显示 打开 Settings(设置),进入 Appearance & Behavior > Appearance > UI Options,勾选 Show main menu in a separate tool bar(在单独的工具…

鸿蒙NEXT API使用指导之文件压缩和邮件创建

鸿蒙NEXT API 使用指导 一、前言二、邮件创建1、拉起垂类应用2、 UIAbilityContext.startAbilityByType 原型2.1、wantParam2.2、abilityStartCallback 与 callback 3、拉起邮箱类应用3.1、单纯拉起邮箱应用3.2、传入带附件的邮件 三、压缩文件1、认识 zlib2、压缩处理2.1、单文…

《从入门到精通:蓝桥杯编程大赛知识点全攻略》(八)-摘花生、地宫取宝

前言 在许多算法问题中,动态规划是一种非常有效的技巧,能够在处理最优化问题时提供显著的性能提升。通过将问题拆解成更小的子问题,并利用已解决的子问题来构建最终解,动态规划能够显著减少计算量。在本文中,我们将通…

初次体验Tauri和Sycamore (2)

原创作者:庄晓立(LIIGO) 原创时间:2025年2月8日(首次发布时间) 原创链接:https://blog.csdn.net/liigo/article/details/145520637 版权所有,转载请注明出处。 关键词:Sy…

kafka消费端之消费者协调器和组协调器

文章目录 概述回顾历史老版本获取消费者变更老版本存在的问题 消费者协调器和组协调器新版如何解决老版本问题再均衡过程**第一阶段CFIND COORDINATOR****第二阶段(JOINGROUP)**选举消费组的lcader选举分区分配策略 第三阶段(SYNC GROUP&…

字节跳动后端一面

📍1. Gzip压缩技术详解 Gzip是一种流行的无损数据压缩格式,它使用DEFLATE算法来减少文件大小,广泛应用于网络传输和文件存储中以提高效率。 🚀 使用场景: • 网站优化:通过压缩HTML、CSS、JavaScript文件来…