[论文笔记] GRPO DPO

[论文笔记] GRPO DPO

embedded/2025/2/8 7:06:53/

GRPO（General Reinforcement Preference Optimization）和 DPO（Direct Preference Optimization）都是用于训练大语言模型的偏好优化方法，它们通过构造对比样本，使模型学会生成更符合人类偏好的输出。

GRPO vs. DPO 的主要区别

DPO: 直接优化模型，使其偏向人类偏好的样本，而远离不符合偏好的样本。
GRPO: 对 DPO 进行推广，引入更一般的 KL 正则化方法，以更灵活地控制生成质量和平衡探索与利用。

1. 数据格式

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data)，其中包含一个“更好”（preferred）的样本 A+ 和一个“较差”（dispreferred）的样本 A−，通常来源于模型生成的多个候选结果，由人工或规则标注优劣。

数据示例（JSONL格式，每行一个样本）

{"prompt":"如何在 Python 中读取 JSON 文件？&#

http://www.ppmy.cn/embedded/160485.html

相关文章

论文翻译学习：《DeepSeek-R1: 通过强化学习激励大型语言模型的推理能力》

论文翻译学习：《DeepSeek-R1: 通过强化学习激励大型语言模型的推理能力》

摘要我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，没有经过监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化…

阅读更多...

[创业之路-286]：《产品开发管理-方法.流程.工具》-2- 人的管理是任何组织首要解决的问题 - 企业与研发组织组成、构架、组织分工

[创业之路-286]：《产品开发管理-方法.流程.工具》-2- 人的管理是任何组织首要解决的问题 - 企业与研发组织组成、构架、组织分工

目录一、产品开发的部门组成（系统关键组成要素） 1、产品开发中的市场规划部门与研发内部的市场/产品/技术预研部门的职责区别： 2、研发的分类：技术预研、平台开发、产品开发相同点差异点相互联系二、研发的组织架构 1…

阅读更多...

Java 8的Stream API

Java 8的Stream API

引言 Java 8引入了Stream API，这是对Java集合操作的一次重大革新。Stream API提供了一种高效且易于使用的方式来处理数据集合，特别是通过支持函数式编程风格，使得代码更加简洁和可读。 Stream API简介什么是Stream？ Stream是J…

阅读更多...

deepseek API 调用-golang

deepseek API 调用-golang

【1】golang使用POST提交请求 package mainimport ("fmt""strings""net/http""io/ioutil" )func main() {url : "https://api.deepseek.com/chat/completions"method : "POST"payload : strings.NewReader({&quo…

阅读更多...

用 Java 轻松读取 Word 文档内容

用 Java 轻松读取 Word 文档内容

嘿，朋友们！在 Java 开发里，有时候咱得读取 Word 文档里的内容，这在处理合同、报告等文件时特别有用。咱可以根据 Word 文档的格式，用不同的库来实现读取功能。下面就详细说说 .doc 和 .docx 这两种常见格式文档的读取方…

阅读更多...

Kafka 入门与实战

Kafka 入门与实战

一、Kafka 基础 1.1 创建topic kafka-topics.bat --bootstrap-server localhost:9092 --topic test --create 1.2 查看消费者偏移量位置 kafka-consumer-groups.bat --bootstrap-server localhost:9092 --describe --group test 1.3 消息的生产与发送 #生产者 kafka-cons…

阅读更多...

Redis基础篇（万丈高楼平地起）：核心底层数据结构

Redis基础篇（万丈高楼平地起）：核心底层数据结构

大家好，我是小龙。近期有很多小伙伴私信我Redis怎么做持久化？集群方案怎么做？分布式锁怎么实现？可是我发现，每次简答完一个问题他还有其他类似问题，或则各个知识点不能串通形成体系，导致很多问题…

阅读更多...

RocketMQ实战—6.生产优化及运维方案

RocketMQ实战—6.生产优化及运维方案

大纲 1.RocketMQ集群如何进行权限机制的控制 2.如何对RocketMQ集群进行消息堆积的追踪 3.如何处理RocketMQ的百万消息积压问题 4.针对RocketMQ集群崩溃的金融级高可用方案 5.为RocketMQ增加消息限流功能保证其高可用 6.从Kafka迁移到RocketMQ的双写双读方案 1.RocketMQ集…

阅读更多...

最新文章