DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

ops/2025/2/6 22:49:46/

论文链接:

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长,自行扔到 Model 里,去翻译去提问吧。

工作原理:

主要技术,就是训练出一些专有用途小模型,来帮助大模型训练。   主要技术:

1. 强化学习 (RL)

核心是强化学习技术,像训练小狗一样,当模型做出正确的推理步骤或得到正确的结果时,就会获得奖励,给 <think> </think> 标记;否则受到惩罚。 通过不断地学习和调整,模型的推理能力就越来越强。 强化学习过程分为多个阶段,包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero),以及在加入少量人工整理的数据后进行强化学习。

2.  冷启动数据

为了让模型更“听话”,在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据,并进行多阶段训练。 这些数据可以帮助模型更好地理解人类的语言和思维方式,从而提高推理的准确性和可读性。  

3. 多阶段训练

训练过程分为多个阶段,包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段,以及针对所有场景的强化学习阶段。 每个阶段都有不同的目标和侧重点,从而保证模型的推理能力和泛化能力都能得到提升。

4. 知识蒸馏

DeepSeek-R1 生成大量的训练数据,然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能,降低计算成本。  


http://www.ppmy.cn/ops/156273.html

相关文章

Linux du 命令详解:查看磁盘使用情况与高级用法 (中英双语)查看某个用户磁盘占用

Linux du 命令详解&#xff1a;查看磁盘使用情况与高级用法 在 Linux 服务器或个人计算机中&#xff0c;了解磁盘使用情况是系统维护的关键任务之一。du&#xff08;Disk Usage&#xff09;命令是 Linux 提供的一个强大工具&#xff0c;可以帮助我们分析目录和文件的磁盘占用情…

RabbitMQ持久化队列配置修改问题

文章目录 1.问题产生2.问题解决1.询问gpt2.独立思考 1.问题产生 我在给一个普通队列去绑定死信交换机和死信队列的时候&#xff0c;发现总是报错x-dead-letter-exchange的属性为none ERROR [PFTID:] [Module:defaultModule] org.springframework.amqp.rabbit.connection.Cach…

JDK长期支持版本(LTS)

https://blogs.oracle.com/java/post/the-arrival-of-java-23 jdk长期支持版本&#xff08;LTS&#xff09;&#xff1a;JDK 8、11、17、21&#xff1a;

图论——最小生成树的扩展应用

最小生成树相关原理 acwing1146.新的开始 假设存在一个“超级发电站” 在每一个矿井修发电站相当于从这个“超级发电站”到各个矿井连一条长度为 v [ i ] v[i] v[i]的边。 这样一来这就是一个最短路的模板题。 #include <iostream> #include <cstring> using na…

短链接项目02---依赖的添加和postman测试

文章目录 1.声明2.对于依赖的引入和处理2.1原有的内容说明2.2添加公共信息2.3dependencies和management区别说明2.4添加spring-boot依赖2.5数据库的相关依赖2.6hutool工具类的依赖添加2.7测试test 的依赖添加 3.core文件的代码3.1目录层级结构3.2启动类3.3testcontroller测试类…

HTML基本语法

什么是HTML? HTML是超文本标记语言&#xff08;HyperText Markup Language&#xff09;的缩写&#xff0c;是一种用于创建网页的标准标记语言。HTML允许网页设计师通过使用标签来描述网页的结构和内容。 W3C标准 W3C&#xff08;World Wide Web Consortium&#xff09;是一…

机器学习之数学基础:线性代数、微积分、概率论 | PyTorch 深度学习实战

前一篇文章&#xff0c;使用线性回归模型逼近目标模型 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于 强化学习必修课&#xff1a;引领人工智能新时代【梗直哥瞿炜】 线性代数、微积分、概率论 …

Mac M1 ComfyUI 中 AnyText插件安装问题汇总?

Q1&#xff1a;NameError: name ‘PreTrainedTokenizer’ is not defined ? 该项目最近更新日期为2024年12月&#xff0c;该时间段的transformers 版本由PyPI 上的 transformers 页面 可知为4.47.1. A1: transformers 版本不满足要求&#xff0c;必须降级transformors &#…