[论文笔记] Deepseek-R1R1-zero技术报告阅读

[论文笔记] Deepseek-R1R1-zero技术报告阅读

news/2025/2/13 16:45:14/

启发：

1、SFT&RL的训练数据使用CoT输出的格式，先思考再回答，大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化（GRPO），奖励模型是规则驱动，准确性奖励和格式化奖励。

1. 总体概述

背景与目标
- 报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。
- 介绍了两代模型：DeepSeek-R1-Zero（纯 RL，无 SFT 冷启动数据）和 DeepSeek-R1（在 RL 前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。
核心思路
- 直接在基础模型上应用大规模强化学习，利用规则设计的奖励机制（包括准确性奖励和格式奖励）激励生成长链思维（CoT）。
- 通过拒绝采样和后续的监督微调，进一步改善模型输出的可读性和对齐人类偏好。

http://www.ppmy.cn/news/1571752.html

相关文章

关于 IoT DC3 中设备（Device）的理解

关于 IoT DC3 中设备（Device）的理解

在物联网系统中，设备（Device）是一个非常宽泛的概念，它可以指代任何能够接入系统并进行数据交互的实体。包括但不限于手机、电脑、服务器、网关、硬件设备甚至是某些软件程序等所有能接入到该平台的媒介。内容定义目的示例 …

阅读更多...

jupyter notebook中3种读图片的方法_与_图片翻转(上下翻转，左右翻转，上下左右翻转)

jupyter notebook中3种读图片的方法_与_图片翻转(上下翻转，左右翻转，上下左右翻转)

已有图片cat.jpg 相对于代码的位置，可以用./cat.jpg进行读取。下面是3种读图片的方法。 1.python读图片-pillow 图片文件不适合用open去读取用open读图片，易引发UnicodeDecodeError: gbk codec cant decode byte 0xff in position 0: illegal multib…

阅读更多...

IDEA使用codeGPT集合deepseek

IDEA使用codeGPT集合deepseek

步骤： 1.因为我电脑旧版IDEA是2022.2.5，不支持。故直接下载了最新版IDEA2024.3.2.2 2.File --> setting --> Plugins --> 搜索"codeGPT" --> install --> apply(应用) --> 重启 3.截止目前deepseek官网暂时没有开放充值&am…

阅读更多...

单片机上SPI和IIC的区别

单片机上SPI和IIC的区别

SPI（Serial Peripheral Interface）和IC（Inter-Integrated Circuit）是两种常用的嵌入式外设通信协议，它们各有优缺点，适用于不同的场景。以下是它们的详细对比： — 1. 基本概念 SPI&#xff0…

阅读更多...

Barra多因子模型

Barra多因子模型

Barra模型 1. Barra模型概述1.1 Barra模型的历史与发展1.2 Barra模型在全球市场中的应用 2. Barra模型的基本原理2.1 APT理论基础2.2 Barra模型的基本原理：因子模型的核心假设因子暴露 β i j \beta_{ij} βij的假设因子收益率 f j f_j fj的假设 3. Barra模型的…

阅读更多...

【Pytorch函数】PyTorch随机数生成全解析 | torch.rand()家族函数使用指南

【Pytorch函数】PyTorch随机数生成全解析 | torch.rand()家族函数使用指南

🌟 PyTorch随机数生成全解析 | torch.rand()家族函数使用指南 🌟 📌 一、核心函数参数详解 PyTorch提供多种随机数生成函数（注意：无直接torch.random()函数），以下是常用函数及参数：…

阅读更多...

CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测，光伏功率预测

CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测，光伏功率预测

代码地址：CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测，光伏功率预测 CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测一、引言 1.1、研究背景和意义光伏功率预测在现代电力系统中占有至关重要的地位。随着可再生能源…

阅读更多...

电脑变慢、游戏卡顿，你的SSD固态可能快坏了！

电脑变慢、游戏卡顿，你的SSD固态可能快坏了！

电脑用久了，很多人都会感觉速度变慢，开机变慢、文件复制时间变长，甚至莫名其妙的卡顿。你可能怀疑是系统问题，或者内存不够，但往往被忽略的一个关键因素——你的硬盘，可能正在悄悄老化。硬盘寿命不是永久的…

阅读更多...

最新文章