DataWhale大语言模型-大模型技术基础

devtools/2025/3/19 23:06:39/

DataWhale大语言模型-大模型技术基础

  • 什么是大语言模型
    • 预训练和后训练之间的对比
    • 大模型预训练(Pre-training)
    • 语言模型后训练(Post-Training)
      • 指令微调(Instruction Tuning)
      • 人类对齐(Human Alignment)
    • 扩展定律
      • KM扩展定律
      • Chinchilla扩展定律
      • 深入讨论
  • 涌现能力
    • 代表性能力
      • 指令遵循(Instruction Following)
      • 上下文学习(In-context Learning)
      • 逐步推理
  • 涌现能力与扩展定律的关系
  • 参考资料

什么是大语言模型

  • 定义:通常是指具有超大规模参数的预训练语言模型

与传统的语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现了强大的自然语言理解能力和复杂任务求解能力(通过文本生成的形式)

  • 架构:主要作为Transformer解码器的架构
  • 训练:训练的内容包括预训练(base model)和后训练(instruct model)
    在这里插入图片描述

预训练和后训练之间的对比

在这里插入图片描述

大模型预训练(Pre-training)

  • 利用与下游任务无关的大规模数据进行模型参数的初始训练

主要的工作任务可以分成以下步骤:

  • 解码器架构+预测下一个词:这是由于GPT系列模型的出圈,该方法得到了有效的验证,已经成为了主流的大语言模型的技术路径
  • 大量的高质量的数据:为了预训练大语言模型需要进行大规模的文本数据,所以数据的数量,数据质量都是十分关键的

目前预训练的过程考虑各种细节,所以需要研发人员有丰富的训练经验和异常处理的能力,从而避免算力资源的浪费,提高模型预训练的成功几率

语言模型后训练(Post-Training)

这一步可以理解为将一个泛化能力很强的模型不断去精修某一门技术,达到完成指定任务的能力,这一过程可以理解为大模型的微调过程
目前来讲比较常见的微调技术被称为指令微调SFT

指令微调(Instruction Tuning)

  • 使用输入与输出配对的指令数据对模型进行微调
  • 提升模型通过问答模式进行任务求解的能力
    在这里插入图片描述

人类对齐(Human Alignment)

除了要提升任务的解决能力,还需要将大语言模型与人类的期望,需求以及价值观对齐,这对于大模型的部署与应用具有重要的意义

  • 将大语言模型与人类的期望,需求以及价值观对齐
  • 基于人类反馈的强化学习对齐方法(RLHF)

在RLHF算法当中,需要标注人员针对大语言模型所生成的多条输出进行偏好排序,并使用偏好数据训练奖励模型,用于判断模型的输出质量
在这里插入图片描述

扩展定律

  • 通过扩展参数规模以及数据规模和计算算力,大语言模型的能力会出现显著的提升
  • 扩展定律在本次大模型的浪潮当中起到了至关重要的作用
    也就是说通过扩展带来的性能提升通常显著高于通过改进架构以及算法等方面所带来的改进,使得大语言模型的能力超越了小语言模型的能力
    在这里插入图片描述

KM扩展定律

由OpenAI团队所提出,首次建立了神经语言模型性能与参数规模(N),**数据规模(D)计算算力©**之间的幂律关系

在这里插入图片描述
L ( ⋅ ) L(\cdot) L()用来表示以 n a t nat nat(用来表示以 e e e为底信息量的自然对数)为单位的交叉熵损失,其中 N c , D c , C c N_c,D_c,C_c Nc,Dc,Cc是实验性常数数值,分别对应于非嵌入参数的数量,训练数据数量以及实际的算力开销

Chinchilla扩展定律

由DeepMind团队所提出的另一种形式的扩展定律

在这里插入图片描述
其中 a a a b b b决定了参数规模以及数据规模的资源分配优先级

  • 当a>b时,应该用更多的算力来提高参数规模
  • 当b>a时,应该利用更多的算力来提高数据规模

深入讨论

在这里插入图片描述
可预测扩展可以简单的理解为可以通过训练一个小模型去预测一个大模型的性能,这种方法其实很明显的问题就在于,模型的参数量大了的话那么很容易出现预测失败的问题
在这里插入图片描述
由于扩展法制存在一定的局限性,当模型的大小超过一定规模的时候,需要提出以下方法–涌现能力

涌现能力

非形式化的定义:在小型的模型当中并不存在但是在大模型当中出现的能力
这里可以我认为(不严谨哈)可以这样说:量变所引起的质变,由于模型的扩展超过一定的规模,使其能力得到了一定的提升(可以说是跃升)

在这里插入图片描述

代表性能力

也就是具有普遍性的一些能力

指令遵循(Instruction Following)

  • 语言模型能够按照自然语言的指令来执行对应的任务
  • 可以通过高质量指令数据微调的方式习得一定的通用指令遵循能力
    在这里插入图片描述

上下文学习(In-context Learning)

  • 在提示当中为语言模型提供自然语言指令和任务示例,无需显式的训练或者梯度更新,仅通过输入文本的单词序列就能为测试样本生成预测的输出
    在这里插入图片描述

逐步推理

在大语言模型当中利用思维链的提示策略来加强推理性能

  • 在提示当中引入任务相关的中间推理步骤来加强复杂任务的求解,从而获得更加可靠的答案
    在这里插入图片描述

涌现能力与扩展定律的关系

在这里插入图片描述

参考资料

Datawhale学习链接:https://www.datawhale.cn/learn/content/107/3287


http://www.ppmy.cn/devtools/168468.html

相关文章

SpringBoot第三站(4):配置嵌入式服务器使用外置的Servlet容器

目录 1. 配置嵌入式服务器 1.1 如何定制和修改Servlet容器的相关配置 1.server.port8080 2. server.context-path/tx 3. server.tomcat.uri-encodingUTF-8 1.2 注册Servlet三大组件【Servlet,Filter,Listener】 1. servlet 2. filter 3. 监听器…

使用GitHub Actions实现Git推送自动部署到服务器

将网站一键部署到服务器的方案很多,比如纯Shell脚本结合SSH、Jenkins等工具。本文将介绍如何利用GitHub Actions这一免费且轻量的CI/CD工具,实现代码推送后自动部署到云服务器。 之前一直在使用github的工作流,确实是一个比较好用的工具。 我…

STM32配套程序接线图

1 工程模板 2 LED闪烁 3LED流水灯 4蜂鸣器 5按键控制LED 6光敏传感器控制蜂鸣器 7OLED显示屏 8对射式红外传感器计次 9旋转编码器计次 10 定时器定时中断 11定时器外部时钟 12PWM驱动LED呼吸灯 13 PWM驱动舵机 14 PWM驱动直流电机 15输入捕获模式测频率 16PWMI模式测频率占空…

《保险科技》

自己在保险行业工作很多年,只是接触了一些数据的内容,对于保险业务的知识了解的很少,想通过这本书补充一下,但是发现这本书就是一些知识的拼接。 先将保险的历史,后讲保险的定义,然后就是吹嘘保险行业和互联…

深入理解Spring Boot:快速构建现代化的Java应用

大家好!今天我们来聊聊Java开发中最流行的框架之一——Spring Boot。Spring Boot是Spring生态系统中的一个重要模块,它旨在简化Spring应用的开发和部署。通过Spring Boot,开发者可以快速构建独立、生产级的应用程序,而无需繁琐的配…

DeepSeek + 药物研发:解决药物研发周期长、成本高-降低80%、失败率高-减少40%

DeepSeek 药物研发:解决药物研发周期长、成本高-降低80%、失败率高-减少40% 论文大纲1. WHY —— 研究背景与现实问题1.1 研究要解决的现实问题与提出背景1.2 研究所要解决的问题类别1.3 正反例对比关联:和前人的工作有什么关系? 3. &#x…

洛谷 P3986 斐波那契数列

P3986 斐波那契数列 题目描述 定义一个数列: f ( 0 ) a , f ( 1 ) b , f ( n ) f ( n − 1 ) f ( n − 2 ) f(0) a, f(1) b, f(n) f(n - 1) f(n - 2) f(0)a,f(1)b,f(n)f(n−1)f(n−2) 其中 a, b 均为正整数,n ≥ 2。 问有多少种 (a, b)&…

基于消失点标定前视相机外参

1. 消失点 艺术家&工程师在纸上表现立体图时,常用一种透视法,这种方法源于人们的视觉经验:近大远小,且平行的直线都消失于无穷远处同一个点。就像我们观察两条平行的铁轨时会觉得他们相交于远处的一点,我们把这个点称为消失点。 图1 铁轨组成的消失点 2. 在标定中的应…