[论文笔记] GRPO DPO

embedded/2025/2/8 7:06:53/

GRPO(General Reinforcement Preference Optimization)和 DPO(Direct Preference Optimization)都是用于训练大语言模型的偏好优化方法,它们通过构造对比样本,使模型学会生成更符合人类偏好的输出。

GRPO vs. DPO 的主要区别

  • DPO: 直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。

  • GRPO: 对 DPO 进行推广,引入更一般的 KL 正则化方法,以更灵活地控制生成质量和平衡探索与利用。

1. 数据格式

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。

数据示例(JSONL格式,每行一个样本)

{"prompt":"如何在 Python 中读取 JSON 文件?&#

http://www.ppmy.cn/embedded/160485.html

相关文章

论文翻译学习:《DeepSeek-R1: 通过强化学习激励大型语言模型的推理能力》

摘要 我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化…

[创业之路-286]:《产品开发管理-方法.流程.工具 》-2- 人的管理是任何组织首要解决的问题 - 企业与研发组织组成、构架、组织分工

目录 一、产品开发的部门组成(系统关键组成要素) 1、产品开发中的市场规划部门与研发内部的市场/产品/技术预研部门的职责区别: 2、研发的分类:技术预研、平台开发、产品开发 相同点 差异点 相互联系 二、研发的组织架构 1…

Java 8的Stream API

引言 Java 8引入了Stream API,这是对Java集合操作的一次重大革新。Stream API提供了一种高效且易于使用的方式来处理数据集合,特别是通过支持函数式编程风格,使得代码更加简洁和可读。 Stream API简介 什么是Stream? Stream是J…

deepseek API 调用-golang

【1】golang使用POST提交请求 package mainimport ("fmt""strings""net/http""io/ioutil" )func main() {url : "https://api.deepseek.com/chat/completions"method : "POST"payload : strings.NewReader({&quo…

用 Java 轻松读取 Word 文档内容

嘿,朋友们!在 Java 开发里,有时候咱得读取 Word 文档里的内容,这在处理合同、报告等文件时特别有用。咱可以根据 Word 文档的格式,用不同的库来实现读取功能。下面就详细说说 .doc 和 .docx 这两种常见格式文档的读取方…

Kafka 入门与实战

一、Kafka 基础 1.1 创建topic kafka-topics.bat --bootstrap-server localhost:9092 --topic test --create 1.2 查看消费者偏移量位置 kafka-consumer-groups.bat --bootstrap-server localhost:9092 --describe --group test 1.3 消息的生产与发送 #生产者 kafka-cons…

Redis基础篇(万丈高楼平地起):核心底层数据结构

大家好,我是小龙。近期有很多小伙伴私信我Redis怎么做持久化?集群方案怎么做?分布式锁怎么实现?可是我发现,每次简答完一个问题他还有其他类似问题,或则各个知识点不能串通形成体系,导致很多问题…

RocketMQ实战—6.生产优化及运维方案

大纲 1.RocketMQ集群如何进行权限机制的控制 2.如何对RocketMQ集群进行消息堆积的追踪 3.如何处理RocketMQ的百万消息积压问题 4.针对RocketMQ集群崩溃的金融级高可用方案 5.为RocketMQ增加消息限流功能保证其高可用 6.从Kafka迁移到RocketMQ的双写双读方案 1.RocketMQ集…