【学习ChatGPT】2. GPT2、GPT3、InstructGPT

news/2025/2/22 17:22:45/

复习: Transformer、GPT1 https://blog.csdn.net/Citroooon/article/details/130048167?spm=1001.2014.3001.5501

GPT2

论文

gpt1 + larger dataset + more params + zero shot

gpt2在预训练模型结构上几乎没有变化,用了更大的数据集、更大的模型:
· 新的百万级数据集WebText, 比之前Bert用的book Corpus和Wikipedia要更大;
· 15亿参数的transformer解码器模型,之前Bert large是3亿+
目前语言模型的通病是泛化能力、迁移能力差,在一个数据集上训练出来的模型很难用于其他任务。所以提出了zero-shot的思想:不需要下游任务标注的任何信息来训练模型, 直接用与训练的模型对子任务做预测
什么是prompt?提示
(translate to french, english text, french text)
(answer the question, documents, questions, answer)

GPT3

技术报告

  1. 模型参数:
    175 billion param
    在这里插入图片描述
    随着模型参数的增加,batch size增加,学习率下降
  2. 模型结构
    预训练模型结构基本不变:GPT2 + Sparse Transformer
    few shots : 给几个子任务的样本(10-100),模拟人类的学习,但是不做梯度更新和微调,而是通过给example的方式(in-context learning)。
    在这里插入图片描述
  3. 数据集:
    在这里插入图片描述
    线性降低损失 需要指数增加数据量
    在这里插入图片描述
  4. 局限性:
    长文本生成的困难:很长的文本后面可能会重复前面的话
    每一次预测下一个词重要性是均匀的
    不可解释性
    gpt是在历史训练数据中找出与问题相似的文本吗

InstructGPT(GPT3.5)

技术报告 训练语言模型以服从人类的指示

1.背景:

大语言模型的安全性 有效性还是有待提高,不能很好地和人类align(拉齐?), 会有一些toxic的回答。语言模型的loss是预测下一词的概率分布,这个与我们的目标是misalign的

  1. 核心方法:
    fine-tuning with human feedback 强化学习, 人工标注了一个答案打分排名的数据集
    在这里插入图片描述
    step1: SFT 有监督的微调,用人类的问题和人类写好的答案来微调GPT3 (这个在模型看来是和学习文本一样的)
    step2: RM 奖励模型,把gpt生成的答案人工标注好坏的顺序
    step3: RLPPO 让SFT生成的答案获得尽可能高的分数
    效果:instructGPT模型比GPT3小100倍,但是效果更好

  2. 如何标注的数据集:略

  3. 模型

SFT: 有监督的微调, 把GPT3的prompt重新训练一遍,过拟合也没关系
RM:排序问题的loss: pairwise ranking loss
在这里插入图片描述
K= 9 , 9 个答案,选出36个pair来计算loss
如果y_w比y_l的排序高,要最大化他们之间奖励分数的差距

RL: PPO目标函数
在这里插入图片描述
· prompt x 输入到 π R L \pi_{RL} πRL 输出reward y , 最大化这个reward ,policy参数会更新
· 最小化 π R L \pi_{RL} πRL π S F T \pi_{SFT} πSFT 的KL散度,不要让更新跑太远
· γ \gamma γ控制的是 模型要更偏向原始数据 D p r e t r a i n D_{pretrain} Dpretrain一些

  1. 效果
    在这里插入图片描述

http://www.ppmy.cn/news/965161.html

相关文章

Auto-GPT:揭示 ChatGPT、GPT-4 和开源 AI 之间的联系

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、什么是Auto-GPT?二、Auto-GPT 是如何工作的?三、Auto-GPT 能做什么?四、谁制造了 Auto-GPT?五、ChatGPT 或 …

年度AI对话|达观陈运文:做私有部署的大模型,数据安全更具优势

本文内容来源于达观数据董事长兼CEO陈运文受邀出席36氪数字时氪的《年度AI对话》专栏采访内容 大模型既带来了压力,也带来了机会 文 | 杨俊 编辑 | 石亚琼 封面来源|企业官方 掌握了人工智能就掌握了新时代的生产力密码。在ChatGPT爆火的当下&#xff…

私有化运行大型语言模型 - 私有化的 GPT

目录 概述 Understanding the Privacy Challenge​了解隐私挑战 Potential Solutions to the Privacy Challenge​隐私挑战的潜在解决方案 Federated Learning​ 联邦学习 Homomorphic Encryption​ 同态加密

常用ChatGPT类模型的总结

做一个现在常用ChatGPT类模型的总结,后续会持续更新,大家如果有新的可以在评论里说 一、商用的(不开源)的: ChatGPT: https://chat.openai.com/ Claude: 可以参考我的这篇文章,北方的郎:Ant…

最新类ChatPDF及AutoGPT开源18大功能平台——闻达手把手超详细环境部署与安装——如何在低显存单显卡上面安装私有ChatGPT GPT-4大语言模型LLM调用平台

目录 前言闻达框架简介前期准备电脑要求安装anaconda安装相应版本的CUDA配置ChatGLM-6B Conda环境安装pytorch 类ChatPDF及AutoGPT开源模型——闻达环境部署及安装相关代码及模型下载解压模型到指定地址配置文件修改根据使用的不同模型,安装相关库运行体验运行chatG…

如何用ChatGPT协助搭建品牌视觉体系(VI)?

该场景对应的关键词库(18个): VI体系、品牌、目标市场、品牌DNA、人群特征、设计理念、标志设计、配色方案、字体选择、图形元素、价值观、形象、客户经理、需求、品牌定位、目标受众、主色调、辅助色 提问模板(2个)&…

零售行业门店综合管理系统怎么做?店务系统有什么功能?

线下门店则变成了零售行业的重要战场。今时不同往日,现在线下门通常得需要兼多种角色,无论是对于门店员工还是管理者来说经营难度和工作强度都在显著增加。像传统落后的门店管理存在着库存失衡,服务效率低,信息滞后且准确度低等问…

如何搭建你的私人专属ChatGPT等系列文章

「 静静地做自己,让世界发现你 」 科技毒瘤君将不定时分享优质工具,大家可以把科技毒瘤君公众号设为★星标,第一时间获取最新推送,以防错过优质内容。 官方网站:www.beiwangshan.com 百度搜索:北忘山 网站目…