如何使用 DeepSpeed-Chat 和自定义数据集训练类 ChatGPT 模型

news/2025/2/21 4:40:41/

如果你想使用自己的数据集进行训练，可以按照以下步骤操作：

1. 数据集格式要求

DeepSpeed-Chat 的数据集需要符合特定的格式。每个数据项应该是一个 JSON 对象，包含以下字段：

JSON复制

{"prompt": "Human: 你的问题", "chosen": "好的回答", "rejected": "不好的回答"
}

prompt 是问题或提示。
chosen 是被选择的、好的回答。
rejected 是被拒绝的、不好的回答。

2. 准备数据文件

将你的数据保存为 JSON 文件，例如 train.json 和 eval.json，分别用于训练和评估。

3. 修改代码以使用自己的数据集

在 DeepSpeed-Chat 的代码中，需要修改数据加载部分以加载你的数据文件。具体步骤如下：

a. 修改 `dschat/utils/data/raw_datasets.py`

在该文件中添加一个新的类，定义你的数据集格式。例如：

Python复制

class MyDataset(PromptRawDataset):def __init__(self, path):super().__init__()self.data = self.load_data(path)def load_data(self, path):with open(path, 'r') as f:data = json.load(f)return data

b. 修改 `dschat/utils/data/data_utils.py`

在 get_raw_dataset 函数中添加一个条件，以便加载你的数据集。例如：

Python复制

if dataset_name == "my_dataset":return MyDataset(path)

c. 修改训练脚本

在训练脚本中，通过 --data_path 参数指定你的数据集路径。例如：

bash复制

python train.py --actor-model facebook/opt-1.3b --reward-model facebook/opt-350m --deployment-type single_gpu --data_path ./path/to/your/train.json

4. 注意事项

如果你的数据集只包含单个回答（没有 rejected 字段），则只能在第一步（SFT）中使用。在这种情况下，需要将数据集名称添加到 --sft_only_data_path 参数中，而不是 --data_path。
如果你计划在第二步和第三步中使用数据集，建议使用包含两个回答（chosen 和 rejected）的数据集，以确保训练的稳定性和模型质量。

如何使用 DeepSpeed-Chat 和自定义数据集训练类 ChatGPT 模型

1. 数据集格式要求

2. 准备数据文件

3. 修改代码以使用自己的数据集

a. 修改 `dschat/utils/data/raw_datasets.py`

b. 修改 `dschat/utils/data/data_utils.py`

c. 修改训练脚本

4. 注意事项

相关文章

zookeeper有序临时结点实现公平锁的实践例子

[C++语法基础与基本概念] std::function与可调用对象

Linux日志系统

Tomcat的升级

计算机三级网络技术知识汇总【3】

P3052 [USACO12MAR] Cows in a Skyscraper G

kamailio中的PV，PV Headers，App Lua，Dialog，UUID,Dianplan等模块的讲解

echarts柱状图属性

如何使用 DeepSpeed-Chat 和自定义数据集训练类 ChatGPT 模型

1. 数据集格式要求

2. 准备数据文件

3. 修改代码以使用自己的数据集

a. 修改 dschat/utils/data/raw_datasets.py

b. 修改 dschat/utils/data/data_utils.py

c. 修改训练脚本

4. 注意事项

相关文章

a. 修改 `dschat/utils/data/raw_datasets.py`

b. 修改 `dschat/utils/data/data_utils.py`