【深度学习】常见模型-GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)

ops/2025/2/14 2:36:32/

🔹 GPT(Generative Pre-trained Transformer)

1️⃣ 什么是 GPT?

GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)是由 OpenAI 开发的基于 Transformer 解码器(Decoder)自回归(Autoregressive)语言模型
它能够通过 大量无监督数据预训练,然后 微调(Fine-tuning) 以适应特定任务,如 文本生成、对话系统、代码生成等


2️⃣ GPT 的关键特点

基于 Transformer 结构:使用 多层自注意力(Self-Attention) 机制建模文本序列。
单向(左到右)训练:不同于 BERT 的 双向编码,GPT 仅使用 前向信息 进行预测。
自回归(Autoregressive)生成:通过 逐步预测下一个词 来生成文本。
大规模预训练 + 任务微调:先在 海量数据上预训练,再微调以适应具体应用。


3️⃣ GPT 的架构

📌 GPT 采用 Transformer 解码器,其核心包括:

  • 多头自注意力(Multi-Head Self-Attention):学习上下文关系。
  • 前馈神经网络(Feed-Forward Network, FFN):增加模型非线性能力。
  • 残差连接(Residual Connection)+ 层归一化(Layer Normalization):稳定训练过程。
  • 位置编码(Positional Encoding):保留输入文本的顺序信息。

📌 GPT 主要版本

版本参数量主要特点
GPT-1 (2018)1.17 亿仅用于 NLP 任务
GPT-2 (2019)15 亿 - 175 亿更强大的文本生成能力
GPT-3 (2020)1,750 亿可用于翻译、对话、代码生成等
GPT-4 (2023)兆级参数多模态能力(支持图像+文本)

4️⃣ GPT 的训练方式

📌 GPT 采用两阶段训练

  1. 预训练(Pre-training)

    • 在大规模文本数据(如维基百科、书籍、新闻等)上训练,目标是 预测下一个词
    • 公式: P(w_t | w_1, w_2, ..., w_{t-1})
    • 例如: 输入The cat sat on the 目标:预测 "mat"
  2. 微调(Fine-tuning)

    • 在特定任务(如问答、摘要、情感分析)上进行额外训练。
    • 例如,GPT 微调后可用于 ChatGPT 进行对话。

5️⃣ GPT 代码示例

使用 Hugging Face 运行 GPT

from transformers import GPT2LMHeadModel, GPT2Tokenizer# 加载 GPT-2 预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")# 输入文本
input_text = "Artificial Intelligence is transforming the world"  # 输入文本
inputs = tokenizer(input_text, return_tensors="pt")  # 输入文本转换为模型输入# 生成文本
output = model.generate(**inputs, max_length=50)  # 生成长度为50的文本
print(tokenizer.decode(output[0], skip_special_tokens=True))  # 输出文本

📌 输出示例

Artificial Intelligence is transforming the world.The world is changing.The world is changing.The world is changing.The world is changing.The world is changing.The world is changing.

GPT 进行问答

from transformers import pipeline# 加载 GPT-2 进行问答任务
qa_pipeline = pipeline("text-generation", model="gpt2")# 生成回答
response = qa_pipeline("What is the capital of France?", max_length=30)
print(response[0]["generated_text"])

📌 输出

What is the capital of France? How has Greece been governed? In short, what is its future? We will see what the French leadership stands for


6️⃣ GPT vs BERT(区别对比)
模型架构训练方式主要用途
GPTTransformer Decoder单向学习(左到右)主要用于 文本生成(如 ChatGPT)
BERTTransformer Encoder双向学习(MLM + NSP)适用于 NLP 任务(分类、问答、NER)

7️⃣ GPT 的应用

ChatGPT(聊天机器人)
代码生成(如 GitHub Copilot)
自动文本摘要
机器翻译
创意写作(小说、诗歌)
问答系统


8️⃣ 未来发展
  • GPT-5(待发布):预计将进一步提升推理能力、多模态交互、长文本记忆等。
  • 多模态 AI:结合 图像、音频、视频,实现更强的 AI 交互能力。
  • 更强的可控性和安全性:增强 AI 对 事实性、偏见、伦理 的控制能力。

📌 总结

  • GPT 是基于 Transformer 的解码器(Decoder)模型,擅长 文本生成
  • GPT 使用自回归方式进行预训练,通过 微调 适应特定任务。
  • 相比 BERT,GPT 更适用于对话、文本续写等生成任务
  • GPT 未来发展方向包括多模态、推理能力增强和更强的上下文理解能力

🚀 GPT 已成为 AI 发展的重要推动力,特别是在 ChatGPT、自动写作和代码生成等应用中大放异彩!


http://www.ppmy.cn/ops/158192.html

相关文章

Wpf美化按钮,输入框,下拉框,dataGrid

Wpf美化按钮&#xff0c;输入框&#xff0c;下拉框&#xff0c;dataGrid 引用代码后 引用资源 <ControlTemplate x:Key"CustomProgressBarTemplate" TargetType"ProgressBar"><Grid><Border x:Name"PART_Track" CornerRadius&q…

23页PDF | 国标《GB/T 44109-2024 信息技术 大数据 数据治理实施指南 》发布

一、前言 《信息技术 大数据 数据治理实施指南》是中国国家标准化管理委员会发布的关于大数据环境下数据治理实施的指导性文件&#xff0c;旨在为组织开展数据治理工作提供系统性的方法和框架。报告详细阐述了数据治理的实施过程&#xff0c;包括规划、执行、评价和改进四个阶…

15 大 AWS 服务

在不断发展的云计算世界中&#xff0c;Amazon Web Services (AWS) 已成为一股主导力量&#xff0c;提供许多服务以满足各种应用程序开发、部署和管理方面的需求。本文将探讨 15 项 AWS 服务。这些服务对于构建可扩展、可靠且高效的系统至关重要。 1.Amazon EC2&#xff08;弹性…

2025年智慧化工园区整体解决方案-下载:安全生产管控,全生命周期数字管理架构

随着化工产业的快速发展&#xff0c;化工园区作为产业集聚的重要载体&#xff0c;面临着安全生产、环境保护、高效运营等诸多挑战。传统管理模式已难以满足现代化发展需求&#xff0c;智慧化工园区的建设成为必然趋势。 本文将介绍智慧化工园区的整体解决方案&#xff0c;重点…

JavaSE基本知识补充 -Map集合

目录 Map(key&#xff0c;value键值对呈现&#xff09; 1.1 Map的映射的特点 1. 2.HashMap &#xff08;键值对的业务偏多&#xff0c;而且hashmap在jdk1.7和1.8之间有所不同&#xff0c;性能做了提升&#xff0c;面试高频考点&#xff09; 1.3 Map接口的方法 方法 HashMap遍…

MySQL面试题合集

1.MySQL中的数据排序是怎么实现的? 回答重点 排序过程中,如果排序字段命中索引,则利用 索引排序。 反之,使用文件排序。 文件排序中,如果数据量少则在内存中排序, 具体是使用单路排序或者双路排序。 如果数据大则利用磁盘文件进行外部排序,一 般使用归并排序。 知识…

python视频爬虫

文章目录 爬虫的基本步骤一些工具模拟浏览器并监听文件视频爬取易错点一个代码示例参考 爬虫的基本步骤 1.抓包分析&#xff0c;利用浏览器的开发者工具 2.发送请求 3.获取数据 4.解析数据 5.保存数据 一些工具 requests, 用于发送请求&#xff0c;可以通过get&#xff0c;p…

【清晰教程】本地部署DeepSeek-r1模型

【清晰教程】通过Docker为本地DeepSeek-r1部署WebUI界面-CSDN博客 目录 Ollama 安装Ollama DeepSeek-r1模型 安装DeepSeek-r1模型 Ollama Ollama 是一个开源工具&#xff0c;专注于简化大型语言模型&#xff08;LLMs&#xff09;的本地部署和管理。它允许用户在本地计算机…