深度学习-87-大模型训练之预训练和微调所用的数据样式

news/2025/1/17 14:21:06/

文章目录

  • 1 大模型训练的阶段
    • 1.1 预训练
      • 1.1.1 全量预训练
      • 1.1.2 二次预训练
    • 1.2 微调
  • 2 预训练需要的数据
    • 2.1 清洗成的文本文档
    • 2.2 如何从文本文档学习
    • 2.3 常见预训练中文语料库
  • 3 微调需要的数据
    • 3.1 微调例子一:电商客服场景
    • 3.2 微调例子二:行政咨询场景
    • 3.3 微调数据长什么样
      • 3.3.1 指令跟随格式
      • 3.3.2 多轮对话格式
      • 3.3.3 文本对齐数据格式
      • 3.3.4 列到序列数据格式
  • 4 参考附录

1 大模型训练的阶段

要了解大模型训练需要什么样的数据之前,先要搞清楚大模型训练的过程,因为不同的阶段所需要的数据类型不同。

目前大模型的训练主要会分为预训练和微调两个阶段,预训练又可以分为全量预训练和二次预训练。
在这里插入图片描述
大模型的训练跟一个人从婴儿成长到能独立工作的过程类似,分了多个阶段,不同阶段训练的目标不同,因此需要用的数据内容和格式也是不同的。

1.1 预训练

预训练是语言模型学习的初始阶段,通过处理大量未标注的文本数据来进行。这些数据包括书籍、文章和网站内容等。在预训练期间,模型的目标是捕获文本语料库中的底层模式、结构和语义知识。

预训练在实践中可以分为两个阶段:全量预训练和二次预训练。

1.1.1 全量预训练

全量预训练是指从零开始对模型进行训练,生成一个预训练模型。

这种模型的特点是通用性强,类似于一个婴儿经过大量培养教育达到高中水平的学生。它具备了语文、数学、英语和地理等通用知识,但对于特定行业领域的专业知识了解有限。

举例来说,通用的预训练模型如通义千问、Ll


http://www.ppmy.cn/news/1563902.html

相关文章

未来量子计算技术会如何影响音频DSP的发展?

量子计算技术的进步预计对音频数字信号处理(DSP)的发展产生深远的影响。虽然量子计算目前还处于早期阶段,但可以预见其潜在应用和影响如下: 1. 计算能力的提升 更快的处理速度:量子计算能够通过量子并行处理大幅提升计…

【微服务justsoso-cloud系列】目录

【微服务justsoso-cloud系列】目录 1.vagrantvirtualbox实现centos7安装 2.centos7安装jdk17教程 3.Linux安装Docker教程(详解) 4.Linux安装git 5.zerotier搭建虚拟局域网,自建planet

《小迪安全》学习笔记05

目录 读取: 写入: (其中的读取和写入时我认为比较重要的,所以单独做成了目录,这里的读取和写入是指在进行sql注入的时候与本地文件进行的交互) 好久没发博客了。。。从这篇开始的小迪安全学习笔记就开始…

华为2024嵌入式研发面试题

01 你认为最好的排序算法是什么? 在实际的编程中,最好的排序算法要根据实际需求和数据规模来选择,因为每种排序算法都有其优势和劣势。以下是一些常见排序算法及其优缺点: 冒泡排序 冒泡排序是一种简单直观的排序算法&#xff0…

案例|富唯智能复合机器人CNC柔性上下料

随着制造业的快速发展,提高生产效率、降低人力成本、确保产品质量已成为企业竞争的关键。本项目针对一家模具制造企业的CNC加工环节,引入富唯智能复合机器人自动上下料系统,以优化生产流程,提升生产效率。 项目难点 1.多环节协同…

javaEE初阶————多线程初阶(1)

多线程初阶———— 1,认识线程 1.1 概念 1)线程是什么 线程就是一个“执行流”,可以理解为程序执行的最小单位; 可以看成轻量级的进程; 2)为啥要有线程 “并发编程” 的需要,但是我们不…

ArcGIS模拟风场(流场)

第一步—获取数据 毫无疑问,绘制这类图纸,数据才是核心。 本次我们用到的数据是广东省时间序列长达30年(1980年-2010年)的“累年最多风向(含静风)”和“累年年均风速”,当然,还包括国家的气象站点分布数据。 这个数据可以从国家气象科学数据中心获取,当然,你也可以直…

解密AIGC三大核心算法:GAN、Transformer、Diffusion Models原理与应用

在当今数字化时代,人工智能生成内容(AIGC)技术正以前所未有的速度改变着我们的生活和工作方式。从创意无限的文本生成,到栩栩如生的图像创作,再到动听的音乐旋律,AIGC的魔力无处不在。而这一切的背后&#…