GPT-4o微调SFT及强化学习DPO数据集构建

GPT-4o微调SFT及强化学习DPO数据集构建

news/2025/2/13 6:21:15/

假设，已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下：

data = []
for x in df.values:prompt = x[1]user_content = x[2]assistant_content = x[3]data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]import json# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:for item in data:json.dump(item, f)f.write('\n')  # 每行一个JSON对象

假设，已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下：

dpo_data = []
for x in sft_df.values:user_content = x[1]preferred_output = x[2]non_preferred_output = x[3]dpo_data.append({"input": {"messages": [{"role": "user", "content": user_content}],"tools": [], "parallel_tool_calls": True }, "preferred_output": [{"role": "assistant", "content": preferred_output}], "non_preferred_output": [{"role": "assistant", "content": non_preferred_output}]})
dpo_data[0]import json
with open('dpo_train.jsonl', 'w') as f:for item in dpo_data:json.dump(item, f)f.write('\n')  # 每行一个JSON对象

注意：强化学习DPO通常在微调SFT的模型上进行。

http://www.ppmy.cn/news/1571628.html

相关文章

XML DOM

XML DOM

XML DOM XML DOM（Document Object Model）是一种用于访问和操作XML文档的标准方式。它提供了一种树形结构来表示XML文档，使得开发者能够方便地对XML数据进行读取、修改和操作。本文将详细介绍XML DOM的基本概念、结构、操作方法以及应用场景。一、XML DOM的基本概念 XML …

阅读更多...

问题：通过策略模式+工厂模式+模板方法模式实现ifelse优化

问题：通过策略模式+工厂模式+模板方法模式实现ifelse优化

项目场景： 提示：这里简述项目相关背景： 示例：商城系统有会员系统，不同会员有不同优惠程度，普通会员不优惠；黄金会员打8折；白金会员优惠50元，再打7折； 问题描…

阅读更多...

二、数据持久化篇（深度增强版）

二、数据持久化篇（深度增强版）

二、数据持久化篇（深度增强版） 2.1 JDBC Template深度解析架构设计思想 #mermaid-svg-y2IrKiVu2gzenoCB {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-y2IrKiVu2gzenoCB .error-icon{fil…

阅读更多...

DeepSeek遇袭后的深思：ManageEngine ITOM如何筑牢安全防线

DeepSeek遇袭后的深思：ManageEngine ITOM如何筑牢安全防线

在科技飞速发展的当下，大模型领域正以前所未有的速度改变着我们的生活和工作方式。DeepSeek作为大模型赛道上的重要参与者为众多行业带来了新的机遇和变革。然而，近期DeepSeek遭受网络攻击的事件，却如同一记警钟，在整个行业内回荡…

阅读更多...

Django学习笔记（第一天：Django基本知识简介与启动）

Django学习笔记（第一天：Django基本知识简介与启动）

博主毕业已经工作一年多了，最基本的测试工作已经完全掌握。一方面为了解决当前公司没有自动化测试平台的痛点，另一方面为了向更高级的测试架构师转型，于是重温Django的知识，用于后期搭建测试自动化平台。为什么不选择Java&#x…

阅读更多...

WRF-Hydro：高级水文建模系统详解

WRF-Hydro：高级水文建模系统详解

1. WRF-Hydro 概述什么是 WRF-Hydro？ WRF-Hydro（Weather Research and Forecasting Hydrological modeling system）是由美国国家大气研究中心（NCAR）开发的一个用于耦合气象模型和水文模型的高级建模系统。它旨在提供…

阅读更多...

一竞技瓦拉几亚S4预选:YB 2-0击败GG

一竞技瓦拉几亚S4预选:YB 2-0击败GG

在2月11号进行的PGL瓦拉几亚S4西欧区预选赛上,留在欧洲训练的YB战队以2-0击败GG战队晋级下一轮。双方对阵第二局:对线期YB就打出了优势,中期依靠卡尔带队进攻不断扩大经济优势,最终轻松碾压拿下比赛胜利,以下是对决战报。 YB战队在天辉。阵容是潮汐、卡尔、沙王、隐刺、发条。G…

阅读更多...

探索 API 文档新境界：Swagger 助力生成带权限控制的 API 文档

探索 API 文档新境界：Swagger 助力生成带权限控制的 API 文档

各位开发者朋友们！在咱们的开发工作里，API 文档就像是项目的说明书，清晰准确的文档能让我们的开发效率大幅提升。而当涉及到权限控制时，如何生成既安全又详细的 API 文档就成了一个关键问题。今天，我就和大家好好唠唠如…

阅读更多...

最新文章