【大模型】GPT系列模型基础

news/2024/9/19 2:09:18/ 标签: gpt, 自然语言处理

前言:GPT整体上与transformer结构相似,但只用了decoder部分。

目录

  • 1. GPT
  • 2. GPT2
  • 3. GPT3
  • 4. 知识补充
    • 4.1 下游任务实现方式
    • 4.2 sparse attention

1. GPT

在这里插入图片描述

  • 预训练:无监督,根据前k个词预测下一个词的概率。
  • 微调: 有监督,目标函数=有监督的目标函数+λ*无监督的目标函数。
  • 核心结构:主要由12个transformer的decoder组成,并且只用了mask multi-head attention

2. GPT2

在这里插入图片描述

与GPT1相比做了以下改进:

  • 在attention前做了Layer Norm,使得模型输入更稳定
  • 输入序列的最大长度从 512 扩充到 1024。
  • 使用预训练+zero-shot的方式,而不是预训练+有监督微调,zero-shot通过prompt实现。

3. GPT3

与GPT2相比做了以下优化:

  • zero-shot变few-shot
  • attention变为了sparse attention

4. 知识补充

4.1 下游任务实现方式

  • fine-tuning:预训练 + 训练样本计算loss更新梯度,然后预测。会更新模型参数
  • zero-shot:预训练 + task description + prompt,直接预测。不更新模型参数
  • one-shot:预训练 + task description + example + prompt,预测。不更新模型参数
  • few-shot:又称为in-context learning,预训练 + task description + examples + prompt,预测。不更新模型参数

4.2 sparse attention

  • dense attention:token之间两两计算注意力,时间复杂度为 O ( N 2 ) {O(N^2)} O(N2)
  • sparse attention:token只与其他token的一个子集计算注意力。对于某一个token,只计算和他相对距离小于k,以及距离为2k,3k…nk的token计算,时间复杂度为 O ( N ∗ l o g ( N ) ) {O(N*log(N))} O(Nlog(N))

http://www.ppmy.cn/news/1520023.html

相关文章

【web开发】Spring Boot 快速搭建Web项目

Date: 2024.08.30 13:52:20 author: lijianzhan 简述:【Spring Boot 快速搭建Web项目应用】是一篇关于Java Web项目构建的文章,主要讲解了如何借助Maven工具来管理和构建Web应用程序。Maven是Java开发中广泛使用的自动化构建工具,能够帮助开…

CentOS 7 升级 OpenSSH 9.8p1

背景 OpenSSH 官方发布安全通告,披露CVE-2024-6387 OpenSSH Server远程代码执行漏洞。 环境 操作系统内核openssh 版本openssl 版本7.8.20033.10.0-11277.4p11.0.2k-fips 安装编译软件和下载 OpenSSH9.8p1 软件包 mkdir -p /data/software cd /data/software/…

k8s探针详细学习笔记

在 Kubernetes 中,主要有三种类型的探针(Probes),用于检测容器的状态: 1.存活探针(Liveness Probes): 用来检测容器是否存活,即容器是否仍在运行。如果存活探针失败&…

docker国内镜像源报错解决方案

Job for docker.service failed because the control process exited with error code. See "systemctl status docker.service" and "journalctl -xe" for details. 遇到 Job for docker.service failed because the control process exited with error …

《从C/C++到Java入门指南》- 22.对象的转型

对象的转型 向上转型 将子类型对象转换成父类型,称之为向上转型。 class People {} class Teacher extends People {}public class Main {public static void main(String args[]) {People teacher new Teacher();System.out.println("0");} }这里将子…

oracle日期加减方式

在 Oracle 数据库中,日期的加减可以通过以下三种方式实现: 一、使用内置函数 ADD_MONTHS函数:用于在日期上增加或减少指定的月份数。 语法:ADD_MONTHS(date, n),其中date是要操作的日期,n是要增加或减少的月…

[Labview]图片叠加下的表格视图拖拽功能:挖坑粗糙版

没错,又是Labview表格T - T 由于项目中用到的表格上有一张用于画框的二维图片,感兴趣可看这篇 [Labview] 表格单元格外边框 二维图片叠加绘图 因此在滚动条与鼠标滚轮的基础上,想再增加一个拖拽移动的功能。 但 [二维图片] 并没有 拖拽开始…

OpenHarmony应用开发( Beta5版)利用native方式实现跨线程调用最佳实践

简介 在OpenHarmony应用开发实践中,经常会遇到一些耗时的任务,如I/O操作、域名解析以及复杂计算等。这些任务如果直接在主线程中执行,将会严重阻塞主线程,影响后续任务的正常流程,进而导致用户界面响应延迟甚至卡顿。…

使用npm第一次创建vue项目时报错 errno -4058 no such file or directory, mkdir ‘XXXXXXXX‘解决办法

使用npm第一次创建vue项目时报错 errno -4058 no such file or directory, mkdir XXXXXXXX解决办法 C:\Users\Administrator目录下的.npmrc里的配置问题(Administrator 这个时你当时的用户目录,目录示例:C:\users(用户)\Administrator(当前用…

Open3D mesh 模型精细化处理--中点剖分

目录 一、概述 1.1原理 1.2实现步骤 二、代码实现 2.1关键函数 输入参数 输出参数 三、实现效果 3.1原始mesh 3.2精细化mesh Open3D点云算法汇总及实战案例汇总的目录地址: Open3D点云算法与点云深度学习案例汇总(长期更新)-CSDN博…

Quartz.Net_持久化

简述 通常而言,Quartz.Net的数据默认是存储在运存中的,换言之:断电即失。所以在默认情况下,当系统重启后,原先的所有任务、触发器、调度器都会失效 为避免上述情况的发生,可以对Quartz.Net进行持久化设置…

selenium连接远程chrome浏览器

连接本地浏览器 命令行启动浏览器 chrome.exe --remote-debugging-port9222 --user-data-dir"C:\selenium\ChromeProfile"selenium连接 from selenium import webdriveroptions webdriver.ChromeOptions() options.debugger_address "127.0.0.1:9222" se…

基于SpringBoot房屋租赁管理系统【包含运行步骤】

基于SpringBoot房屋租赁管理系统【包含运行步骤】 一、项目简介二、技术选型三、运行步骤1. 项目启动 四、项目演示前台页面展示管理员后台管理源码获取方式 总结 大家好,这里是程序猿代码之路,在当今社会,随着城市化进程的加快,房…

Linux网络编程 --- Socket编程

前言 首先看看TCP/IP网络协议和在我们计算机系统层次中的对应关系。 socket的位置 网络通信的本质就是贯穿网络协议层的过程。 局域网数据的封装和解包过程 逻辑上我们认为同层协议之间通信 几乎任何层的协议都会提供一种解包和分用的功能。 几乎任何层的协议&#xff…

ui 自动化测试过程是什么?

UI自动化测试是指通过模拟用户操作来测试应用程序的用户界面的一种测试方法。它可以模拟用户在应用程序上的操作,比如点击按钮、输入文本等,然后检查应用程序的响应是否符合预期。UI自动化测试可以提高测试效率并减少人工测试的工作量,同时可…

Word文档被锁定无法编辑怎么办?一键快速移除Word编辑限制

有没有遇到这种情况?打开Word文档后,准备对Word软件进行文档的编辑时,发现文档有部分内容无法进行编辑了,不知道怎么回事,其实这是因为无法编辑区域被锁定了,所以无法进行编辑,那么应该怎么解除…

科研绘图系列:python语言tSNE散点图(tSNE scatter plot)

介绍 t-SNE(t-distributed Stochastic Neighbor Embedding)是一种用于高维数据可视化的非线性降维技术。它由Laurens van der Maaten和Geoffrey Hinton在2008年提出。t-SNE的主要目的是将高维空间中的数据点映射到二维或三维空间中,同时尽可能保持数据点之间的相对距离,使…

x86_64 DeepinV23交叉编译生成aarch64 linux执行文件

一、系统环境 X86_64 Deepin V23正式版 二、安装步骤 1. 查看本机g版本 $ g -v ... gcc version 12.3.0 (Deepin 12.3.0-17deepin5) 2.下载arm工具链 下载网页: Arm GNU Toolchain Downloads – Arm Developer https://developer.arm.com/downloads/-/arm-gnu-t…

MySQL——事务与存储过程(三)存储过程的使用(1)调用存储过程

使用存储过程可以使程序执行效率更高、安全性更好,增强程序的可重用性和维护性。接下来将针对存储过程的使用进行详细的讲解。 存储过程有多种调用方法。存储过程必须使用CALL语句调用,并且存储过程和数据库相关,如果要执行其他数据库…

栈和队列算法题

在学习了栈和队列的相关概念并且在之前也实现了栈和队列,接下来我们就来试着写一些栈和队列的算法题,在这些算法题当中将会使用到之前实现的栈或者队列,栈、队列在这当中将会变为工具一样,我们就会像工具一样拿着它们去解决问题&a…