8 数据集
后训练技术被精心设计以提高LLMs对特定领域或任务的适应性,而数据集则是这一优化过程的基石。对先前研究[457, 82]的仔细审查强调了数据的质量、多样性和相关性如何深刻影响模型的有效性,并经常决定后训练努力的成功与否。为了阐明数据集在此背景下的关键作用,本文提供了对后训练阶段所使用数据集的一个全面回顾和深入分析,并根据其收集方法将它们分类为三种主要类型:人工标记数据、提炼数据和合成数据。
这些类别反映了数据管理中的不同策略,模型可能采用单一方法或结合多种类型的混合方法来平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概览,包括它们的来源、规模、语言、任务以及后训练阶段(如监督微调SFT和基于人类反馈的强化学习RLHF)。在后续部分中,我们将探索它们在提升LLM能力方面的贡献与挑战。
8.1 人工标记数据集
人工标记数据集以其卓越的准确性和上下文保真度著称,这些属性源于标注者对任务复杂性的细致理解及其进行精确、上下文敏感调整的能力。这些数据集是细化指令微调的基石,通过提供高质量、专家精心策划的训练信号,在多样化的任务中显著提升LLM的表现。在此类别中,Flan[17]、P3(公共提示池)[459]、Sup-Natinst(超级自然指令)[462]和Dolly-15K[468]等著名范例作为LLM后训练中广泛采用的资源脱颖而出,每个资源都通过人类专业知识为优化模型能力贡献了独特的优势。
人工标记数据在SFT阶段的应用
在SFT(监督微调)阶段,人工标记数据集发挥着不可或缺的作用,Flan、Sup-Natinst和Dolly-15K的贡献表明了这一点,它们提供了精心设计的提示-响应对和特定任务的指令,以提升LLM在各种自然语言处理基准测试中的效能。
-
Flan。Flan数据集[17]是一个基础资源,最初包含了62个广泛认可的NLP基准测试——如HellaSwag[482]、MRPC[483]和ANLI[484]——通过其180万个示例促进英语中的强大多任务学习。最近,FlanV2[34]作为一个先进的迭代出现,扩展了其前身,通过整合Flan[17]、P3[459]、Sup-Natinst[462]以及大量的额外数据集到一个连贯且全面的语料库中,从而增强了它在多种语言和任务领域中进行SFT的实用性。
-
Sup-Natinst。超级自然指令(Sup-Natinst)[462]提供了跨越55种语言的76种任务类型的广泛而多样的数组,确立了其作为多语言LLM后训练多功能资源的地位。每个任务都与一条指令仔细配对,该指令包括明确的任务定义——概述从输入文本到期望输出的映射——以及一组展示正确和错误响应的例子,为指导模型实现精确的任务执行和增强跨语言适应性提供了一个强大的框架。