GPT理论

embedded/2024/10/4 15:55:28/

1.GPT发展

  • Transformer是一个用作翻译任务的模型,谷歌出品。

  • GPT全称 lmproving Language Understanding by Generative Pre-Training,用预训练语言理解模型。OPENAI出品。

  • BERT全称Pre-training of Deep BidirectionalTransformers for Language Understanding,双向预训练语言理解模型。谷歌出品。GPT与BERT都是基于Transformer的模型结构。

  • BERT在学术界比GPT要火很多,BERT论文引用量是58.9K。GPTI.,2.3加起来的论文引用量是17.7K。(截至2023年2月10日)

  • GPTI,2,3本质没有区别,仅是模型参数的数量越来越多。

  • GPT3.5是GPT3在不同任务上微调之后的综合模型。

  • ChatGPT则是利用GPT系列模型封装的智能聊天Al应用。

 

2.GPT和BERT的区别

  1. 模型结构:

  • GPT是一种单向的 Transformer模型,只考虑一个词的左侧上下文。

  • BERT是一种双向的Transformer模型,同时处理一个词的左侧和右侧的上下文。

 

 

     预训练任务:

  • GPT的预训练任务是Language Modeling,它更注重语言生成。(简单理解,就是文本生成,如写作,写歌词等)

  • BERT的预训练任务是Masked Language Modeling 和Next Sentence Prediction,它更注重语言理解和关系 推断。(简单理解,就是完型填空,与预测B句子是否在A句子后面这两个任务联合训练。)

  • 应用领域:

  • GPT则更专注于语言生成,如文本生成、对话生成等。

  • BERT的应用领域更广泛,可以用于命名实体识别、问答系统、句子相似度等任务。

 

模型参数量对比

 

  • BERT-base就是故意做成GPT的大小从而与之比较,结果效果上完胜。

  • GPT2代开始将模型做大,BERT便不再与GPT竞争。

  1. GPT半开源,BERT全开源。这意味着,做产品时可以把BERT模型部署在自己的服务器上从而脱离其母公司,而GPT不可以。

  2. GPT目前有API可调用,BERT没有。这意味着对于普通程序员而言,基于GPT做产品的门槛远低于BERT

  3. GPT的微调不是真正的微调,而是few-shot。

 

3.微调和Few-Shot

 微调

优势:训练效果与普通模型训练没有区别。预训练模型的存在相当于为此次训练做了大量的准备工作。

劣势:所需算力与数据量与普通模型训练没有区别。

 

 Few-Shot

优势:训练省力,计算量小,不需要太多数据。

劣势:容易过拟合。很考验预训练模型的泛化能力。

 


http://www.ppmy.cn/embedded/121286.html

相关文章

CSS多列

CSS多列 前言 有的时候希望文本能按照多列效果显示,如: 这时候就要把文本显示效果改成多列显示,标题独占一行 CSS文本多列使用 ① column-count 指定文本分为几列,如: column-count: 3;② column-gap 指定列之…

如何实现一个Mini Spring Boot

Spring Boot 是一个强大的框架,简化了 Spring 应用程序的开发。但是,它的核心思想和实现其实并不复杂。接下来,我们将从零开始,逐步实现一个简化版的 “Mini Spring Boot”。 1. 核心思想 Spring Boot 的核心功能包括&#xff…

学习docker第二弹------基本命令[帮助启动类命令、镜像命令、容器命令]

docker目录 前言基本命令帮助启动类命令停止docker服务查看docker状态启动docker重启docker开机启动docker查看概要信息查看总体帮助文档查看命令帮助文档 镜像命令查看所有的镜像 -a查看镜像ID -q在仓库里面查找redis拉取镜像查看容器/镜像/数据卷所占内存删除一个镜像删除多个…

【算法篇】回溯算法类(1)(笔记)

目录 一、理论基础 1. 相关题目 2. 遍历过程 3. 代码框架 二、LeetCode 题目 1. 组合 2. 组合总和III 3. 电话号码的字母组合 4. 组合总和 5. 组合总和II 6. 分割回文串 7. 复原IP地址 8. 子集 一、理论基础 1. 相关题目 2. 遍历过程 3. 代码框架 void backtr…

C++ 游戏开发

C游戏开发 C 是一种高效、灵活且功能强大的编程语言,因其性能和控制能力而在游戏开发中被广泛应用。许多著名的游戏引擎,如 Unreal Engine、CryEngine 和 Godot 等,都依赖于 C 进行核心开发。本文将详细介绍 C 在游戏开发中的应用&#xff0…

Python练习1

1. 用三种以上方法实现字符串拼接。 # 方法一:直接用拼接 s1"Hello" s2"World1" ss1" "s2 print(s)# 方法二:格式化输出 res1 "Hello" res2 "World3" res f"{res1} {res2}" print(res)…

广联达 Linkworks办公OA Service.asmx接口存在信息泄露漏洞

漏洞描述 广联达科技股份有限公司以建设工程领域专业应用为核心基础支撑,提供一百余款基于“端云大数据”产品/服务,提供产业大数据、产业新金融等增值服务的数字建筑平台服务商。广联达OA存在信息泄露漏洞,由于某些接口没有鉴权&#xff0c…

会议平台后端优化方案

会议平台后端优化方案 通过RTC的学习,我了解到了端对端技术,就想着做一个节省服务器资源的会议平台 之前做了这个项目,快手二面被问到卡着不知如何介绍,便有了这篇文章 分析当下机制 相对于传统视频平台(SFU&#xff…