深度学习-87-大模型训练之预训练和微调所用的数据样式

深度学习-87-大模型训练之预训练和微调所用的数据样式

news/2025/1/17 14:21:06/

文章目录

1 大模型训练的阶段
- 1.1 预训练
- - 1.1.1 全量预训练
  - 1.1.2 二次预训练
- 1.2 微调
2 预训练需要的数据
- 2.1 清洗成的文本文档
- 2.2 如何从文本文档学习
- 2.3 常见预训练中文语料库
3 微调需要的数据
- 3.1 微调例子一：电商客服场景
- 3.2 微调例子二：行政咨询场景
- 3.3 微调数据长什么样
- - 3.3.1 指令跟随格式
  - 3.3.2 多轮对话格式
  - 3.3.3 文本对齐数据格式
  - 3.3.4 列到序列数据格式
4 参考附录

1 大模型训练的阶段

要了解大模型训练需要什么样的数据之前，先要搞清楚大模型训练的过程，因为不同的阶段所需要的数据类型不同。

目前大模型的训练主要会分为预训练和微调两个阶段，预训练又可以分为全量预训练和二次预训练。
在这里插入图片描述
大模型的训练跟一个人从婴儿成长到能独立工作的过程类似，分了多个阶段，不同阶段训练的目标不同，因此需要用的数据内容和格式也是不同的。

1.1 预训练

预训练是语言模型学习的初始阶段，通过处理大量未标注的文本数据来进行。这些数据包括书籍、文章和网站内容等。在预训练期间，模型的目标是捕获文本语料库中的底层模式、结构和语义知识。

预训练在实践中可以分为两个阶段：全量预训练和二次预训练。

1.1.1 全量预训练

全量预训练是指从零开始对模型进行训练，生成一个预训练模型。

这种模型的特点是通用性强，类似于一个婴儿经过大量培养教育达到高中水平的学生。它具备了语文、数学、英语和地理等通用知识，但对于特定行业领域的专业知识了解有限。

举例来说，通用的预训练模型如通义千问、Ll

http://www.ppmy.cn/news/1563902.html

相关文章

未来量子计算技术会如何影响音频DSP的发展？

未来量子计算技术会如何影响音频DSP的发展？

量子计算技术的进步预计对音频数字信号处理（DSP）的发展产生深远的影响。虽然量子计算目前还处于早期阶段，但可以预见其潜在应用和影响如下： 1. 计算能力的提升更快的处理速度：量子计算能够通过量子并行处理大幅提升计…

阅读更多...

【微服务justsoso-cloud系列】目录

【微服务justsoso-cloud系列】目录

【微服务justsoso-cloud系列】目录 1.vagrantvirtualbox实现centos7安装 2.centos7安装jdk17教程 3.Linux安装Docker教程（详解） 4.Linux安装git 5.zerotier搭建虚拟局域网，自建planet

阅读更多...

《小迪安全》学习笔记05

《小迪安全》学习笔记05

目录读取： 写入： （其中的读取和写入时我认为比较重要的，所以单独做成了目录，这里的读取和写入是指在进行sql注入的时候与本地文件进行的交互） 好久没发博客了。。。从这篇开始的小迪安全学习笔记就开始…

阅读更多...

华为2024嵌入式研发面试题

华为2024嵌入式研发面试题

01 你认为最好的排序算法是什么？ 在实际的编程中，最好的排序算法要根据实际需求和数据规模来选择，因为每种排序算法都有其优势和劣势。以下是一些常见排序算法及其优缺点： 冒泡排序冒泡排序是一种简单直观的排序算法&#xff0…

阅读更多...

案例|富唯智能复合机器人CNC柔性上下料

案例|富唯智能复合机器人CNC柔性上下料

随着制造业的快速发展，提高生产效率、降低人力成本、确保产品质量已成为企业竞争的关键。本项目针对一家模具制造企业的CNC加工环节，引入富唯智能复合机器人自动上下料系统，以优化生产流程，提升生产效率。项目难点 1.多环节协同…

阅读更多...

javaEE初阶————多线程初阶(1)

javaEE初阶————多线程初阶(1)

多线程初阶———— 1，认识线程 1.1 概念 1）线程是什么线程就是一个“执行流”，可以理解为程序执行的最小单位； 可以看成轻量级的进程； 2）为啥要有线程 “并发编程” 的需要，但是我们不…

阅读更多...

ArcGIS模拟风场（流场）

ArcGIS模拟风场（流场）

第一步—获取数据毫无疑问，绘制这类图纸，数据才是核心。本次我们用到的数据是广东省时间序列长达30年（1980年-2010年）的“累年最多风向（含静风）”和“累年年均风速”，当然，还包括国家的气象站点分布数据。这个数据可以从国家气象科学数据中心获取，当然，你也可以直…

阅读更多...

解密AIGC三大核心算法：GAN、Transformer、Diffusion Models原理与应用

解密AIGC三大核心算法：GAN、Transformer、Diffusion Models原理与应用

在当今数字化时代，人工智能生成内容（AIGC）技术正以前所未有的速度改变着我们的生活和工作方式。从创意无限的文本生成，到栩栩如生的图像创作，再到动听的音乐旋律，AIGC的魔力无处不在。而这一切的背后&#…

阅读更多...

最新文章