文章目录
- 1 大模型训练的阶段
- 1.1 预训练
- 1.1.1 全量预训练
- 1.1.2 二次预训练
- 1.2 微调
- 2 预训练需要的数据
- 2.1 清洗成的文本文档
- 2.2 如何从文本文档学习
- 2.3 常见预训练中文语料库
- 3 微调需要的数据
- 3.1 微调例子一:电商客服场景
- 3.2 微调例子二:行政咨询场景
- 3.3 微调数据长什么样
- 3.3.1 指令跟随格式
- 3.3.2 多轮对话格式
- 3.3.3 文本对齐数据格式
- 3.3.4 列到序列数据格式
- 4 参考附录
1 大模型训练的阶段
要了解大模型训练需要什么样的数据之前,先要搞清楚大模型训练的过程,因为不同的阶段所需要的数据类型不同。
目前大模型的训练主要会分为预训练和微调两个阶段,预训练又可以分为全量预训练和二次预训练。
大模型的训练跟一个人从婴儿成长到能独立工作的过程类似,分了多个阶段,不同阶段训练的目标不同,因此需要用的数据内容和格式也是不同的。
1.1 预训练
预训练是语言模型学习的初始阶段,通过处理大量未标注的文本数据来进行。这些数据包括书籍、文章和网站内容等。在预训练期间,模型的目标是捕获文本语料库中的底层模式、结构和语义知识。
预训练在实践中可以分为两个阶段:全量预训练和二次预训练。
1.1.1 全量预训练
全量预训练是指从零开始对模型进行训练,生成一个预训练模型。
这种模型的特点是通用性强,类似于一个婴儿经过大量培养教育达到高中水平的学生。它具备了语文、数学、英语和地理等通用知识,但对于特定行业领域的专业知识了解有限。
举例来说,通用的预训练模型如通义千问、Ll