【AI学习】关于 DeepSeek-R1的几个流程图

devtools/2025/2/11 17:46:43/

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。

流程图

来自文章《Understanding Reasoning LLMs》,
文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述:

  1. DeepSeek-R1-Zero
    该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习(RL)训练,并使用了两类奖励作为回报信号。由于没有进行监督微调(SFT),也就是常见“RLHF”流程中的 SFT 步骤被跳过,所以他们把这称为“冷启动”的方式(Cold Start)。
  2. DeepSeek-R1
    这是 DeepSeek 的主力推理模型,也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成,性能优于“冷启动”的 R1-Zero。
  3. DeepSeek-R1-Distill
    他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

流程图

下面的流程图非常详细,出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,复刻流程如下:
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史,让我们看到了一个令人振奋的AI发展轨迹:从无监督起步,到结构化优化,再到轻量级蒸馏,每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子,通过GRPO这个高效的强化学习框架,自主掌握了思考的艺术。它展现出自反思和结构化思维的能力,虽然初期表达还略显生涩,但这正是“会走”之前必经的阶段。
随后,DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练,就像接受了系统的教育,不仅改善了表达,更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制,它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝,DeepSeek团队成功将大模型的智慧浓缩进更小的架构(如Qwen-7B和Llama-8B),几乎不损失性能。这意味着,高质量的AI助手将可以运行在更普及的设备上,真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述

通俗解读 DeepSeek-R1 训练过程

在这里插入图片描述

来自@爱可可-爱生活
【通俗解读 DeepSeek-R1 训练过程】
DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传统AI训练范式,并引发了对GPU市场未来需求的重新思考。

  • DeepSeek-R1的成本效益挑战英伟达的霸权地位: DeepSeek-R1 即使GPU资源有限,也能以极低的成本达到与OpenAI模型相当的性能,导致英伟达股价大幅下跌。这挑战了以往认为大规模GPU资源对于高级AI开发至关重要的传统观点。
  • 杰文斯悖论与GPU需求的未来: 文章探讨了杰文斯悖论的适用性,认为AI训练效率的提高可能导致GPU的整体需求增加,而不是减少。然而,文章也提出了反驳意见,认为转向微调和开源模型可能会降低对高端GPU的需求。
  • DeepSeek-R1非常规的训练方法: DeepSeek-R1采用了一种与传统的监督微调方法不同的新训练方法。它广泛利用强化学习(RL),首先使用DeepSeek-R1-Zero(纯RL),然后结合RL和监督微调的多阶段过程进行改进。
  • DeepSeek-R1-Zero:用于推理的纯强化学习: DeepSeek-R1-Zero作为DeepSeek-R1的前身,展示了纯强化学习在增强LLM推理能力方面的潜力,在各种基准测试中取得了最先进的(SOTA)性能。这与直觉相反,因为强化学习通常被认为在这种用途上不如监督学习有效。
  • DeepSeek-R1的多阶段训练过程: DeepSeek-R1的训练包括多阶段过程:冷启动微调以提高可读性,面向推理的强化学习,使用合成和非推理数据集进行微调,最后是结合人类偏好的强化学习。这种分层方法对模型的成功至关重要。
  • 强化学习在推理中的局限性: 作者对RL在提高一般推理能力方面的无限潜力表示怀疑,认为它可能主要增强对推理模式的记忆,而不是真正的理解。这意味着仅通过强化学习所能实现的性能提升可能存在上限。
  • 通过强化学习生成合成数据集: 一个关键创新是利用强化学习训练的模型生成大型合成推理数据集,然后用于监督微调。这巧妙地利用了RL和监督学习的优势。

思考:

  • 强化学习的潜力与局限: 强化学习在特定任务上的高效性令人印象深刻,但其在通用推理能力上的提升可能存在瓶颈,需要结合其他方法才能发挥最大效用。
  • 数据合成与模型训练: 利用强化学习模型生成合成数据,再结合监督学习进行微调,是一种值得借鉴的有效策略,可以降低数据标注成本并提升模型性能。
  • 多阶段训练的价值: DeepSeek-R1的多阶段训练过程体现了模型训练策略的复杂性和精细化,这对于构建高性能模型至关重要。

‘The Layman’s Introduction to DeepSeek-R1 Training’
medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d


http://www.ppmy.cn/devtools/157990.html

相关文章

国内知名Deepseek培训师培训讲师唐兴通老师讲授AI人工智能大模型实践应用

课程名称 《Deepseek人工智能大模型实践应用》 课程目标 全面了解Deepseek人工智能大模型的技术原理、功能特点及应用场景。 熟练掌握Deepseek大模型的提示词工程技巧,能够编写高质量的提示词。 掌握Deepseek大模型在办公、营销等领域的应用方法,提升…

2024美团春招硬件开发笔试真题及答案解析

目录 一、选择题 1、在 Linux,有一个名为 file 的文件,内容如下所示: 2、在 Linux 中,关于虚拟内存相关的说法正确的是() 3、AT89S52单片机中,在外部中断响应的期间,中断请求标志位查询占用了()。 4、下列关于8051单片机的结构与功能,说法不正确的是()? 5、…

C++字符串相关内容

字符串 字符串,本质上是一个接一个字符的一组字符。字母、数字、符号等。 const char* 字符串名 字符后面会有一个空终止符,为0。 字符串从指针的内存地址开始,然后继续下去,直到它碰到0,然后意识到字符串终止了。 …

SpringCloud面试题----Nacos和Eureka的区别

功能特性 服务发现 Nacos:支持基于 DNS 和 RPC 的服务发现,提供了更为灵活的服务发现机制,能满足不同场景下的服务发现需求。Eureka:主要基于 HTTP 的 RESTful 接口进行服务发现,客户端通过向 Eureka Server 发送 HT…

ASP.NET Core程序的部署

发布 不能直接把bin/Debug部署到生产环境的服务器上,性能低。应该创建网站的发布版,用【发布】功能。两种部署模式:“框架依赖”和“独立”。独立模式选择目标操作系统和CPU类型。Windows、Linux、iOS;关于龙芯。 网站的运行 在…

[LeetCode] day19 454. 四数相加 II

题目链接 题目描述 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 < i, j, k, l < n nums1[i] nums2[j] nums3[k] nums4[l] 0 示例 1&#xff1a; 输入&…

网络跨域问题深度解析与解决方案

网络跨域问题深度解析与解决方案 一、同源策略&#xff1a;网络安全的基石 &#xff08;一&#xff09;同源策略的定义 同源策略&#xff08;Same-Origin Policy&#xff09;是浏览器为保障用户信息安全和防止恶意网站攻击而设计的一种安全机制。它要求只有在协议、域名和端…

科技资讯杂志科技资讯杂志社科技资讯编辑部2024年第24期目录

学思践悟二十大 “枫桥经验”的思想政治教育内涵及启示——践行党的二十大精神 洪希彦; 1-330 构建符合党的二十大精神的高职院校劳动教育课程体系研究 李曼; 4-7 党的二十大精神引领下“隧道施工”课程思政探究 张志明;陈国辉; 8-10 新质生产力 新质生产力视域…