A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第8部分——数据

news/2025/3/19 19:37:58/

8 数据集

后训练技术被精心设计以提高LLMs对特定领域或任务的适应性,而数据集则是这一优化过程的基石。对先前研究[457, 82]的仔细审查强调了数据的质量、多样性和相关性如何深刻影响模型的有效性,并经常决定后训练努力的成功与否。为了阐明数据集在此背景下的关键作用,本文提供了对后训练阶段所使用数据集的一个全面回顾和深入分析,并根据其收集方法将它们分类为三种主要类型:人工标记数据、提炼数据和合成数据。

这些类别反映了数据管理中的不同策略,模型可能采用单一方法或结合多种类型的混合方法来平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概览,包括它们的来源、规模、语言、任务以及后训练阶段(如监督微调SFT和基于人类反馈的强化学习RLHF)。在后续部分中,我们将探索它们在提升LLM能力方面的贡献与挑战。

8.1 人工标记数据集

人工标记数据集以其卓越的准确性和上下文保真度著称,这些属性源于标注者对任务复杂性的细致理解及其进行精确、上下文敏感调整的能力。这些数据集是细化指令微调的基石,通过提供高质量、专家精心策划的训练信号,在多样化的任务中显著提升LLM的表现。在此类别中,Flan[17]、P3(公共提示池)[459]、Sup-Natinst(超级自然指令)[462]和Dolly-15K[468]等著名范例作为LLM后训练中广泛采用的资源脱颖而出,每个资源都通过人类专业知识为优化模型能力贡献了独特的优势。

人工标记数据在SFT阶段的应用

在SFT(监督微调)阶段,人工标记数据集发挥着不可或缺的作用,Flan、Sup-Natinst和Dolly-15K的贡献表明了这一点,它们提供了精心设计的提示-响应对和特定任务的指令,以提升LLM在各种自然语言处理基准测试中的效能。

  • Flan。Flan数据集[17]是一个基础资源,最初包含了62个广泛认可的NLP基准测试——如HellaSwag[482]、MRPC[483]和ANLI[484]——通过其180万个示例促进英语中的强大多任务学习。最近,FlanV2[34]作为一个先进的迭代出现,扩展了其前身,通过整合Flan[17]、P3[459]、Sup-Natinst[462]以及大量的额外数据集到一个连贯且全面的语料库中,从而增强了它在多种语言和任务领域中进行SFT的实用性。

  • Sup-Natinst。超级自然指令(Sup-Natinst)[462]提供了跨越55种语言的76种任务类型的广泛而多样的数组,确立了其作为多语言LLM后训练多功能资源的地位。每个任务都与一条指令仔细配对,该指令包括明确的任务定义——概述从输入文本到期望输出的映射——以及一组展示正确和错误响应的例子,为指导模型实现精确的任务执行和增强跨语言适应性提供了一个强大的框架。


http://www.ppmy.cn/news/1580400.html

相关文章

leetcode 75.颜色分类(荷兰国旗问题)

题目描述 题目分析 本题是经典的「荷兰国旗问题」,由计算机科学家 Edsger W. Dijkstra 首先提出。 要想单独解决这道题本身还是很简单的,统计0、1、2的数量然后按顺序赋值,或者手写一个冒泡排序,whatever。 但是在这一题中我们主…

台式机电脑组装---电源

台式机电脑组装—电源 22 33 主板供电是聚集了12V,5V,3.3V的24pin CPU供电的话主要是12V的44pin供电 44pin合并之后,就是8pin 55 SATA硬盘会使用饼io口取电,从电源获取12v,5v,3.3v的电 33

3--网络安全架构概述

从青铜到王者:华为网络安全架构全景解读 前言:黑客都开始内卷了,你的网络安全还在裸奔吗? “从前黑客攻击是为了炫技,现在攻击是为了还房贷” —— 某不愿透露姓名的白帽子 当网络攻击从"技术宅的恶作剧"变…

面试redis常被问到的面试题含答案

什么是Redis?它的特点是什么? Redis是一个开源的内存数据库,用于存储数据并支持多种数据结构(如字符串、哈希、列表、集合、有序集合等)。其特点包括高性能、支持持久化、数据结构丰富、原子性操作、支持事务等。 Red…

vue网格布局--grid布局

1 九宫格布局&#xff08;无边距&#xff09; <div class"container"><div class"item">1</div><div class"item">2</div><div class"item">3</div><div class"item">4<…

外星人入侵-Python-三

武装飞船 开发一个名为《外星人入侵》的游戏吧&#xff01;为此将使用 Pygame&#xff0c;这是一组功能强大而有趣的模块&#xff0c;可用于管理图形、动画乃至声音&#xff0c; 让你能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像 等任务&#xff0c;可将…

音视频处理的“瑞士军刀”与“积木”:FFmpeg 与 GStreamer 的深度揭秘

一、发展历史与生态演进对比 FFmpeg的成长轨迹 诞生背景&#xff1a;2000年由Fabrice Bellard创建&#xff0c;最初为解决视频编码标准化问题而生。早期版本仅支持MPEG-1编码&#xff0c;但凭借开源社区协作&#xff0c;迅速扩展为全格式编解码工具。技术扩张&#xff1a;2004年…

matlab 火电厂给水控制系统仿真

1、内容简介 略 matlab157-火电厂给水控制系统仿真 可以交流、咨询、答疑 2、内容说明 略 摘 要 虽然现在新能源发电领域比较火爆&#xff0c;但至今火力发电厂依然在我的的发电领域中拥有很重要的地位。我国虽然还是发展中国家&#xff0c;但是近年来GDP的增长已经处于世界…