A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第8部分——数据

embedded/2025/3/21 5:39:43/

8 数据集

后训练技术被精心设计以提高LLMs对特定领域或任务的适应性,而数据集则是这一优化过程的基石。对先前研究[457, 82]的仔细审查强调了数据的质量、多样性和相关性如何深刻影响模型的有效性,并经常决定后训练努力的成功与否。为了阐明数据集在此背景下的关键作用,本文提供了对后训练阶段所使用数据集的一个全面回顾和深入分析,并根据其收集方法将它们分类为三种主要类型:人工标记数据、提炼数据和合成数据。

这些类别反映了数据管理中的不同策略,模型可能采用单一方法或结合多种类型的混合方法来平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概览,包括它们的来源、规模、语言、任务以及后训练阶段(如监督微调SFT和基于人类反馈的强化学习RLHF)。在后续部分中,我们将探索它们在提升LLM能力方面的贡献与挑战。

8.1 人工标记数据集

人工标记数据集以其卓越的准确性和上下文保真度著称,这些属性源于标注者对任务复杂性的细致理解及其进行精确、上下文敏感调整的能力。这些数据集是细化指令微调的基石,通过提供高质量、专家精心策划的训练信号,在多样化的任务中显著提升LLM的表现。在此类别中,Flan[17]、P3(公共提示池)[459]、Sup-Natinst(超级自然指令)[462]和Dolly-15K[468]等著名范例作为LLM后训练中广泛采用的资源脱颖而出,每个资源都通过人类专业知识为优化模型能力贡献了独特的优势。

人工标记数据在SFT阶段的应用

在SFT(监督微调)阶段,人工标记数据集发挥着不可或缺的作用,Flan、Sup-Natinst和Dolly-15K的贡献表明了这一点,它们提供了精心设计的提示-响应对和特定任务的指令,以提升LLM在各种自然语言处理基准测试中的效能。

  • Flan。Flan数据集[17]是一个基础资源,最初包含了62个广泛认可的NLP基准测试——如HellaSwag[482]、MRPC[483]和ANLI[484]——通过其180万个示例促进英语中的强大多任务学习。最近,FlanV2[34]作为一个先进的迭代出现,扩展了其前身,通过整合Flan[17]、P3[459]、Sup-Natinst[462]以及大量的额外数据集到一个连贯且全面的语料库中,从而增强了它在多种语言和任务领域中进行SFT的实用性。

  • Sup-Natinst。超级自然指令(Sup-Natinst)[462]提供了跨越55种语言的76种任务类型的广泛而多样的数组,确立了其作为多语言LLM后训练多功能资源的地位。每个任务都与一条指令仔细配对,该指令包括明确的任务定义——概述从输入文本到期望输出的映射——以及一组展示正确和错误响应的例子,为指导模型实现精确的任务执行和增强跨语言适应性提供了一个强大的框架。


http://www.ppmy.cn/embedded/173916.html

相关文章

VMware中Ubuntu突然网络不可用,设置中网络设置消失?抱歉,发生错误。请联系软件提供商。需要运行NetworkManager,别急,3行代码带你搞定。

ERROR错误: 在VWmare中使用Ubuntu系统经常会出现网络不可以,网络设置消失的问题,是不是前一天用着好好的,关机再开机就突然不能用了。 在终端和浏览器都没有网络 三行代码解决 : 重启网络,在终端输入&…

基于PMU的14节点、30节点电力系统状态估计MATLAB程序

“电气仔推送”获得资料(专享优惠) 程序简介: 程序采用三种方法对14节点和30节点电力系统状态进行评估: ①PMU同步向量测量单元结合加权最小二乘法(WLS)分析电力系统的电压幅值和相角状态; …

尚硅谷爬虫(解析_xpath的基本使用)笔记

1、xpath的基本使用 创建一个简单的HTML&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><ul><li>北京</li><li&…

Visual Studio Code安装配置优化全攻略:打造高效开发环境

目录 一、背景与意义 二、安装与配置基础 2.1 下载与安装 2.2 核心配置目录 三、深度优化配置指南 3.1 主题与界面优化 3.2 必装效率插件&#xff08;精选TOP10&#xff09; 3.3 性能优化设置 四、实战案例&#xff1a;前端开发环境配置 4.1 项目初始化 4.2 调试配置…

手搓智能音箱——语音识别及调用大模型回应

一、代码概述 此 Python 代码实现了一个语音交互系统&#xff0c;主要功能为监听唤醒词&#xff0c;在唤醒后接收用户语音问题&#xff0c;利用百度语音识别将语音转换为文本&#xff0c;再调用 DeepSeek API 获取智能回复&#xff0c;最后使用文本转语音功能将回复朗读出来。 …

Web3游戏行业报告

一&#xff0c;gamefi经济 什么是gamefi GameFi是一个缩写&#xff0c;它结合了游戏和去中心化金融(“DeFi”)这两个术语&#xff0c;关注的是游戏玩法如何在去中心化系统中实现货币化。对于游戏而言&#xff0c;只要开放了交易市场&#xff0c;允许玩家自由买卖&#xff0c;…

Git 常用命令完全指南:从入门到高效协作

文章需要结构清晰&#xff0c;涵盖从入门到进阶的常用命令&#xff0c;结合实例和注意事项&#xff0c;帮助用户快速掌握Git的核心功能&#xff0c;并应用到实际项目中 一、仓库初始化与基础操作 1. 创建与克隆仓库 # 初始化本地仓库 git init# 克隆远程仓库&#xff08;SSH方…

【Leetcode刷题随笔】206.反转链表

1.题目简介 翻转一个单链表&#xff0c;示例: 输入: 1->2->3->4->5->NULL 输出: 5->4->3->2->1->NULL。 原题链接&#xff1a;206.反转链表. 2.解法思路 要反转一个链表&#xff0c;可以定义一个新的链表来实现反转&#xff0c;但是内存空间消…