ChatGPT背后的模型三兄弟

news/2024/10/18 18:28:20/

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和工作带来不一样的体验。

后面我们将从chatGPT算法流程作为切入点,分别介绍ChatGPT背后的三个深度学习模型,正是这三个基础的模型铸就了ChatGPT强大的文本信息理解表达能力。

chatGPT算法流程

书归正传,让我们来体验下chatGPT大道至简的神奇算法。

首先从数据库中采样一批prompt提示,然后让人工标注人员编写对应prompt答案。我们利用<prompt,prompt答案>来微调预训练好的GPT-3模型,微调后的模型SFT模型。
第二步,随机采样的一个prompt,让我们微调好的GPT-3模型预测多个答案【<prompt, 答案1>, <prompt, 答案2>…】,人工对比排序同一个prompt好坏情况,然后排序。在利用微调后的GPT-3模型构造一个RM奖励模型,利用人工标注答案顺序,训练RM奖励模型,类似于LambdaRank思想。
第三步,构造一个双头PPO模型,对于一个新采样的prompt提示,生成对应的答案,然后利用RM奖励模型,评测当前生成答案的得分score,并用score反向更新优化PPO模型。
SFT监督模型
SFT模型是微调后的GPT模型,说到GPT模型就不能介绍下大名鼎鼎的Transformer模型,Transformer模型是一个典型的encode-decode模型结构,模型是为了解决LSTM等序列生成模型训练速度慢的问题。

GPT模型和BERT模型是一对孪生兄妹,BERT模型使用了Transformer模型的encoder部分,而GPT模型使用的正好是Transformer模型的decoder部分(改造去掉了第二层multi-head attention),为什么GPT要使用decoder部分而不是encoder部分呢?这就要说到GPT设计之初要解决的问题,和BERT用来抽取文本序列信息不同,GPT生来就是为了生成序列,为了结合前序提示,生成我们后续的答案,所以我们要用Masked Attention,不能让模型看到答案,这就是GPT和BERT的本质区别。

GPT模型结构如下图所示,GPT-3将模型层数升级到了百层,模型参数升级到几千亿,在这千亿的参数中,总会储存想要的信息。

Transformer【左】GPT【右】

RM模型
如果我们是有SFT模型,那模型对于我们输入的prompt提示或者问题,是不会给出我们满意答案的,为什么呢?因为SFT模型训练的目标并不是让人类满意,所以他诞生和成长之初,压根也没有打算让人类满意,他训练自身的目的就是更大概率的生成下一个字符,这显然不能完全代表人类的喜好。

那我们怎么解决这样的一个问题呢?那就构造一个可以代替人来评估生成结果好坏的RM模型,这个模型结构和SFT模型是完全一样的,只不过将输出层改造成输出张量的模型层。对于同一个prompt输出的多个答案,人工评测排序后,使用lambdarank的思想,优化RM奖励模型。RM模型学习的就是对于一个prompt,人类对答案的喜好程度。

RM模型【左】RM损失函数【右】

PPO模型
上面我们花了这么大力气,训练了代表人类喜好的RM模型,这样一个喜好函数有什么用呢?这就要说到我们的PPO模型,我们之前微调的SFT模型,虽然也能够生成prompt answer,但是这是一个没有感情的answer,完全是根据海量文本中上下文共现概率生成的,没有加入任何的人类喜好和意志。

怎么让这个SFT模型按照人类的喜好,生成人类喜欢的prompt呢?这就我们RM模型的作用,RM模型通过上一步人工排序标注的方式,学习到了每对<prompt, prompt answer>人类评测的好坏程度。我们利用SFT模型对输出进行改造,构造一个双头PPO模型,模型一头输出一个张量,代表生成序列每个元素的价值value;另一头将输出映射成prompt answer词典答案。

我们将<prompt, prompt answer>输入到RM模型中,获得一个评估当前prompt对的奖励R,然后用R作为奖励,反向更新每个元素的价值value,这也就是所谓的PPO强化学习算法。

PPO模型【左】PPO目标函数【右】

以上就是ChatGPT基本的模型算法和背后的三个主要的算法模型,其实模型基本的结构和背后的算法并是不第一次提出和应用,但是ChatGPT创新的应用,将强化学习和NLP文本生成很好的结合在了一起,将生成的文本序列融入了人类的喜好,生成的内容更像是一个人在回答我们的prompt,这也就是为什么生成的内容,让我们看起来更舒服更自然。


http://www.ppmy.cn/news/950432.html

相关文章

ChatGPT历代训练模型

开发需要&#xff0c;记录ChatGPT历代模型型号。 text-davinci-003 描述&#xff1a;text-davinci-003是GPT-3系列中最强大的型号。可以执行其他GPT-3型号可以执行的任何任务,通常具有更高的质量、更长的输出和更好的指令遵循。每个请求最多可以处理4,000 tokens。优势&#xf…

ChatGPT类模型汇总

❤️觉得内容不错的话&#xff0c;欢迎点赞收藏加关注&#x1f60a;&#x1f60a;&#x1f60a;&#xff0c;后续会继续输入更多优质内容❤️ &#x1f449;有问题欢迎大家加关注私戳或者评论&#xff08;包括但不限于NLP算法相关&#xff0c;linux学习相关&#xff0c;读研读博…

训练自己的ChatGPT 语言模型(一).md

0x00 Background 为什么研究这个&#xff1f; ChatGPT在国内外都受到了广泛关注&#xff0c;很多高校、研究机构和企业都计划推出类似的模型。然而&#xff0c;ChatGPT并没有开源&#xff0c;且复现难度非常大&#xff0c;即使到现在&#xff0c;没有任何单位或企业能够完全复…

chatgpt4模型介绍

在当今信息爆炸的时代&#xff0c;人们越来越多地依赖计算机和互联网与他人进行交流。然而&#xff0c;传统的计算机交互方式常常显得呆板和不自然&#xff0c;难以满足人们对于智能、自然对话的需求。为了解决这一问题&#xff0c;OpenAI推出了ChatGPT&#xff0c;这是一种能够…

深入理解ChatGPT的模型结构和训练流程

自然语言处理在人工智能领域中越来越受到关注&#xff0c;其中一个尤为重要的组成部分是语言模型。近年来&#xff0c;基于变换器&#xff08;Transformer&#xff09;的语言模型已经成为了主流。ChatGPT是一种基于变换器的语言模型&#xff0c;由OpenAI团队提出并开源。本文将…

ChatGPT探索系列之二:学习GPT模型系列的发展历程和原理

文章目录 前言一、GPT的起源GPT系列 二、GPT的原理1. GPT原理&#xff1a;自注意2. GPT原理&#xff1a;位置编码3. GPT原理&#xff1a;Masked Language Modeling4. GPT原理&#xff1a;预训练5. GPT原理&#xff1a;微调6. GPT原理&#xff1a;多任务学习 三、GPT模型的风险与…

ChatGPT:基于深度学习的自然语言处理模型

自然语言处理&#xff08;Natural Language Processing&#xff0c;简称NLP&#xff09;是人工智能领域的一个非常重要的分支&#xff0c;它的目标是让计算机能够理解、分析和生成人类自然语言。自然语言处理技术已经广泛应用于搜索引擎、语音识别、机器翻译、情感分析、问答系…

一文读懂chatGPT模型原理(无公式)

每天给你送来NLP技术干货&#xff01; 来自&#xff1a;JioNLP 点击这里进群—>加入NLP交流群 &#xff08;本文是chatGPT原理介绍&#xff0c;但没有任何数学公式&#xff0c;可以放心食用&#xff09; 前言 这两天&#xff0c;chatGPT模型真可谓称得上是狂拽酷炫D炸天的存…