[论文笔记] Deepseek-R1R1-zero技术报告阅读

news/2025/2/13 16:45:14/

启发:

1、SFT&RL的训练数据使用CoT输出的格式,先思考再回答,大大提升模型的数学与推理能力。

2、RL训练使用群体相对策略优化(GRPO),奖励模型是规则驱动,准确性奖励和格式化奖励。

1. 总体概述

  • 背景与目标

    • 报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。

    • 介绍了两代模型:DeepSeek-R1-Zero(纯 RL,无 SFT 冷启动数据)和 DeepSeek-R1(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。

  • 核心思路

    • 直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。

    • 通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。


http://www.ppmy.cn/news/1571752.html

相关文章

关于 IoT DC3 中设备(Device)的理解

在物联网系统中,设备(Device)是一个非常宽泛的概念,它可以指代任何能够接入系统并进行数据交互的实体。包括但不限于手机、电脑、服务器、网关、硬件设备甚至是某些软件程序等所有能接入到该平台的媒介。 内容 定义 目的 示例 …

jupyter notebook中3种读图片的方法_与_图片翻转(上下翻转,左右翻转,上下左右翻转)

已有图片cat.jpg 相对于代码的位置,可以用./cat.jpg进行读取。 下面是3种读图片的方法。 1.python读图片-pillow 图片文件不适合用open去读取 用open读图片,易引发UnicodeDecodeError: gbk codec cant decode byte 0xff in position 0: illegal multib…

IDEA使用codeGPT集合deepseek

步骤: 1.因为我电脑旧版IDEA是2022.2.5,不支持。故直接下载了最新版IDEA2024.3.2.2 2.File --> setting --> Plugins --> 搜索"codeGPT" --> install --> apply(应用) --> 重启 3.截止目前deepseek官网暂时没有开放充值&am…

单片机上SPI和IIC的区别

SPI(Serial Peripheral Interface)和IC(Inter-Integrated Circuit)是两种常用的嵌入式外设通信协议,它们各有优缺点,适用于不同的场景。以下是它们的详细对比: — 1. 基本概念 SPI&#xff0…

Barra多因子模型

Barra模型 1. Barra模型概述1.1 Barra模型的历史与发展1.2 Barra模型在全球市场中的应用 2. Barra模型的基本原理2.1 APT理论基础2.2 Barra模型的基本原理:因子模型的核心假设因子暴露 β i j \beta_{ij} βij​的假设因子收益率 f j f_j fj​的假设 3. Barra模型的…

【Pytorch函数】PyTorch随机数生成全解析 | torch.rand()家族函数使用指南

🌟 PyTorch随机数生成全解析 | torch.rand()家族函数使用指南 🌟 📌 一、核心函数参数详解 PyTorch提供多种随机数生成函数(注意:无直接torch.random()函数),以下是常用函数及参数:…

CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测,光伏功率预测

代码地址:CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测,光伏功率预测 CNN-BiLSTM卷积神经网络双向长短期记忆神经网络多变量多步预测 一、引言 1.1、研究背景和意义 光伏功率预测在现代电力系统中占有至关重要的地位。随着可再生能源…

电脑变慢、游戏卡顿,你的SSD固态可能快坏了!

电脑用久了,很多人都会感觉速度变慢,开机变慢、文件复制时间变长,甚至莫名其妙的卡顿。你可能怀疑是系统问题,或者内存不够,但往往被忽略的一个关键因素——你的硬盘,可能正在悄悄老化。 硬盘寿命不是永久的…