ChatGPT原理学习

news/2024/11/21 0:36:15/

参考

参考视频

GPT1

在这里插入图片描述
曾经2018年BERT很火。其实GPT也有了。
区别：BERT：完形填空：中间扣空了预测；GPT：预测未来

GPT1：先要有个预训练模型，然后基于具体的应用做fine-tune（下游任务做微调），才能用

GPT2

不搞fine-tune了，直接搞个大模型，做所有的事情。
zero-shot
one-shot
few-shot
在这里插入图片描述
给个任务描述，给个例子，prompt，就能得出结果。很像人的一个理解过程，理解自己要干什么事情。

ChatGPT

在这里插入图片描述
需要学习人的逻辑（商业化，不能直接胡说八道，有些话不能说）
例子：

强化学习

在这里插入图片描述

在这里插入图片描述
奖励模型（让模型知道什么是好的回答）
例子：模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数：让分高（好的回答）跟分低（坏的回答）的差距大。

在这里插入图片描述
强化学习无限迭代：
输入问题 – PPO模型输出（回答的问题） – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

在这里插入图片描述

奖励模型怎么更新

在这里插入图片描述

得分要高
与标注结果的差异要低
泛化能力要高（在不同的下游任务的表现也要做的不错）

SFT：有监督模型
RL：强化学习模型
两个模型差异要小。

http://www.ppmy.cn/news/958794.html

相关文章

采用ChatGPT对强化学习A2C源代码添加注释说明

采用ChatGPT对强化学习A2C源代码添加注释说明

强化学习中的Actor-Critic算法是一种普遍经常用到的经典算法，Actor-Critic 翻译成“演员—评论家”方法。策略网络 π(a|s;θ) 相当于演员，它基于状态 s 做出动作 a。价值网络 q(s,a;w) 相当于评论家，它给演员的表现打分，量化在状…

阅读更多...

ChatGPT 拓展资料：强化学习-SARSA算法

ChatGPT 拓展资料：强化学习-SARSA算法

强化学习是一种机器学习技术，它关注的是在特定环境中，如何最大化一个智能体（agent）的累积奖励（reward）。强化学习算法会根据当前状态和环境的反馈来选择下一个动作，不断地进行试错，从而优化智能体的行为。 SARSA是一种基于强化学习的算法，它可以用于解决马尔可夫决策…

阅读更多...

ChatGPT 拓展资料：强化学习-Gym环境

ChatGPT 拓展资料：强化学习-Gym环境

ChatGPT 拓展资料：强化学习-Gym环境 Gym是一个广泛使用的开源软件库，它是针对强化学习任务的仿真环境和算法的工具包。它提供了一个标准的界面，使得研究人员可以轻松地使用各种强化学习算法进行模拟和测试。 Gym中包含了各种各样的环境，这些环境模拟了现实世界中的各种问…

阅读更多...

ChatGPT 拓展资料：强化学习-动态规划算法

ChatGPT 拓展资料：强化学习-动态规划算法

ChatGPT 强化学习-动态规划算法强化学习是一种机器学习方法，可以帮助智能体学习如何在一个环境中做出最优的决策。在强化学习中，动态规划是一种解决问题的方法，策略迭代是其中的一种核心技术。动态规划可以帮助智能体解决包含多个阶段和决策的问题。在这种问题中，每个阶…

阅读更多...

chatgpt中的强化学习 PPO

chatgpt中的强化学习 PPO

PPO？ 强化学习基本概念强化学习五要素：智能体、行为、环境、状态、奖励。先直接将五个要素映射到文本生成任务上： 智能体：生成模型。行为: 获取当前step token的概率分布，并选取其中一个作为生成的token。环…

阅读更多...

为什么ChatGPT等AI应用使用强化学习而不是监督学习

为什么ChatGPT等AI应用使用强化学习而不是监督学习

我也是无意中入了强化学习的领域，因为我原本研究云计算的任务调度，我发现近几年的工作都是基于强化学习的。所以感觉强化学习一定是大趋势，恰好现在ChatGPT这些人工智能产品出现，更是助推了强化学习的风。那么为什么ChatGPT使用强…

阅读更多...

RLHF | 想训练ChatGPT？先来看看强化学习+语言模型吧（附源码）

RLHF | 想训练ChatGPT？先来看看强化学习+语言模型吧（附源码）

每天给你送来NLP技术干货！ 作者简介作者：何枝原文：https://zhuanlan.zhihu.com/p/595116794 排版：关于NLP那些你不知道的事随着最近 ChatGPT 的大火，越来越多人开始关注其中用到的 RLHF（Reinforcement L…

阅读更多...

模型训练核心：ChatGPT 中的 RLHF 人工反馈强化学习模式

模型训练核心：ChatGPT 中的 RLHF 人工反馈强化学习模式

目录 ChatGPT 的强化学习原理 Step0：预训练一个大规模语言模型 Step1：训练监督模型 SFT

阅读更多...

最新文章