DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

embedded/2025/2/5 4:19:04/

论文链接:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长,自行扔到 Model 里,去翻译去提问吧。

工作原理:

主要技术,就是训练出一些专有用途小模型,来帮助大模型训练。   主要技术:

1. 强化学习 (RL)

核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的结果时,就会获得奖励,给 <think> </think> 标记;否则受到惩罚。 通过不断地学习和调整,模型的推理能力就越来越强。 强化学习过程分为多个阶段,包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero),以及在加入少量人工整理的数据后进行强化学习。

2.  冷启动数据

为了让模型更“听话”,在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据,并进行多阶段训练。 这些数据可以帮助模型更好地理解人类的语言和思维方式,从而提高推理的准确性和可读性。  

3. 多阶段训练

训练过程分为多个阶段,包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段,以及针对所有场景的强化学习阶段。 每个阶段都有不同的目标和侧重点,从而保证模型的推理能力和泛化能力都能得到提升。

4. 知识蒸馏

DeepSeek-R1 生成大量的训练数据,然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能,降低计算成本。  


http://www.ppmy.cn/embedded/159652.html

相关文章

c++ list的front和pop_front的概念和使用案例—第2版

在 C 标准库中&#xff0c;std::list 的 front() 和 pop_front() 是与链表头部元素密切相关的两个成员函数。以下是它们的核心概念和具体使用案例&#xff1a; 1. front() 方法 概念&#xff1a; 功能&#xff1a;返回链表中第一个元素的引用&#xff08;直接访问头部元素&am…

257. 二叉树的所有路径

二叉树的所有路径 已解答 简单 给你一个二叉树的根节点 root &#xff0c;按 任意顺序 &#xff0c;返回所有从根节点到叶子节点的路径。 叶子节点 是指没有子节点的节点。 示例 1&#xff1a; 输入&#xff1a;root [1,2,3,null,5] 输出&#xff1a;[“1->2->5”,“…

HTB:UnderPass[WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用nmap对靶机UDP开放端口进行脚本、服务扫描 …

Python玄学

过年期间无聊的看了看DY直播&#xff0c;也是迷上玄学了。突然想着为啥要自己掐指算&#xff0c;我这&#x1f437;脑哪记得到那么多东西啊。然后&#xff0c;就捣鼓捣鼓了一些玩意儿。留个纪念。 注&#xff1a;就是一个玄学推动学习&#xff0c;部分内容不必当真&#xff0c;…

三傻排序的比较(选择,冒泡,插入)

在学习排序算法时&#xff0c;选择排序、冒泡排序和插入排序是最常见的基础排序算法。但是&#xff0c;尽管这些算法看起来非常相似&#xff0c;它们在实际应用中的效率和性能却有所不同。本文将详细比较这三种排序算法的时间复杂度、空间复杂度。 比较总结 排序算法时间复杂…

如何在5步内使用 Spring AI 和 OpenAI 的 DALL-E 3 生成图像

将 Spring AI 与 OpenAI 的 DALL-E 3 集成&#xff0c;以生成图像。轻松设置 Spring Boot、配置 API 集成并自定义设置。 大家好&#xff01;这是关于 Spring AI 系列介绍文章的第一篇。今天&#xff0c;我们将了解如何通过文本提示轻松生成图片。为此&#xff0c;我们将利用 …

Go优雅实现redis分布式锁

前言 系统为了保证高可用&#xff0c;通常会部署多实例&#xff0c;并且会存在同时对共享资源并发读写&#xff0c;这时候为了保证读写的安全&#xff0c;常规手段是会引入分布式锁&#xff0c;本文将介绍如何使用redis设计一个优雅的Go分布式锁。 设计 redis分布式锁是借助…

Golang —协程池(panjf2000/ants/v2)

Golang —协程池&#xff08;panjf2000/ants/v2&#xff09; 1 ants1.1 基本信息1.2 ants 是如何运行的&#xff08;流程图&#xff09; 1 ants 1.1 基本信息 代码地址&#xff1a;github.com/panjf2000/ants/v2 介绍&#xff1a;ants是一个高性能的 goroutine 池&#xff0c…