[论文笔记] Deepseek-R1R1-zero技术报告阅读

[论文笔记] Deepseek-R1R1-zero技术报告阅读

server/2025/2/8 2:03:44/

启发：

1、SFT&RL的训练数据使用CoT输出的格式，先思考再回答，大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化（GRPO），奖励模型是规则驱动，准确性奖励和格式化奖励。

1. 总体概述

背景与目标
- 报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。
- 介绍了两代模型：DeepSeek-R1-Zero（纯 RL，无 SFT 冷启动数据）和 DeepSeek-R1（在 RL 前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。
核心思路
- 直接在基础模型上应用大规模强化学习，利用规则设计的奖励机制（包括准确性奖励和格式奖励）激励生成长链思维（CoT）。
- 通过拒绝采样和后续的监督微调，进一步改善模型输出的可读性和对齐人类偏好。

http://www.ppmy.cn/server/165820.html

相关文章

WebShell分析

WebShell分析

一.WebShell基础 1.简介介绍：WebShell是一种黑客常用的恶意脚本，主要目的是通过在目标服务器上植入恶意代码，获得执行操作的权限。常见的WebShell编写语言包括： ASPJSPPHP 2.特点持久化控制上传WebShell后，黑客能…

阅读更多...

【Elasticsearch】文本分类聚合Categorize Text Aggregation

【Elasticsearch】文本分类聚合Categorize Text Aggregation

响应参数讲解: key （字符串）由 categorization_analyzer 提取的标记组成，这些标记是类别中所有输入字段值的共同部分。 doc_count （整数）与类别匹配的文档数量。 max_matching_length （整数）从…

阅读更多...

第 1 天：UE5 C++ 开发环境搭建，全流程指南

第 1 天：UE5 C++ 开发环境搭建，全流程指南

🎯 目标：搭建 Unreal Engine 5（UE5）C 开发环境，配置 Visual Studio 并成功运行 C 代码！ 1️⃣ Unreal Engine 5 安装 🔹 下载与安装 Unreal Engine 5 步骤： 注册并安装 Epic Game…

阅读更多...

（2025，LVLM，高分辨率图像处理，子图划分，全局语义引导注意力权重分配）

（2025，LVLM，高分辨率图像处理，子图划分，全局语义引导注意力权重分配）

Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models 目录 1. 引言 2. 本文贡献 3. 方法 3.1 现有高分辨率图像处理方法 3.2 全局语义引导权重分配（GSWA） 4. 实验结果 4.1 通用基准测试…

阅读更多...

qsort函数对二维数组的排序Cmp函数理解

qsort函数对二维数组的排序Cmp函数理解

在我们解题过程中，很多情况下，排序是必不可少的一环。对于C语言来说，排序函数qsort就显得非常重要。本文介绍一维数组、二维数组的qsort排序，其中二维数组的Cmp函数的写法做了详细注释。 qsort函数原型介绍： /* …

阅读更多...

嵌入式八股文面试题（一）C语言部分

嵌入式八股文面试题（一）C语言部分

1. 变量/函数的声明和定义的区别？ （1）变量定义不仅告知编译器变量的类型和名字，还会分配内存空间。 int x 10; // 定义并初始化x int x; //同样是定义声明只是告诉编译器变量的名字和类型，但并不为它分配内存空间…

阅读更多...

硬件电路基础

硬件电路基础

目录 1. 电学基础 1.1 原子 1.2 电压 1.3 电流 1.电流方向： 正极->负极,正电荷定向移动方向为电流方向，与电子定向移动方向相反。 2.电荷（这里表示负电荷）运动方向： 与电流方向相反 1.4 测电压的时候 2. 地线…

阅读更多...

【hudi】基于hive2.1.1的编译hudi-1.0.0源码

【hudi】基于hive2.1.1的编译hudi-1.0.0源码

hudi版本1.0.0 需要使用较低版本的hive，编译hudi只需要修改下类即可： org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat 一、复制org.apache.hadoop.hive.common.StringInternUtils 找个hive2.3.9的源码包，创建包路径&#xff0c…

阅读更多...

最新文章