大模型基本原理(二)——ChatGPT的工作原理

devtools/2025/2/12 7:54:12/

如何得到一个ChatGPT?

1、无监督预训练:通过大量的文本数据集进行无监督训练,得到一个基座模型(只会续写文本)

2、监督微调:通过一些人类撰写的高质量对话数据对基座模型进行监督微调,得到一个微调后的基座模型(除了能续写文本,还具备更好的对话能力)

3、训练奖励模型+强化学习训练:用问题和对各对应回答的数据,让人类标注员对回答进行质量排序,基于这些数据,训练出一个能对回答进行评分预测的奖励模型。

让监督微调模型对问题生成回答,用奖励模型对回答进行打分,利用评分作为反馈进行强化学习训练,就能够得到最终的ChatGPT了。

接下来让我们对每一个步骤进行详细解读

1、无监督预训练

基座模型需要海量的文本数据进行训练

无监督训练:以原始文本作为数据集和监督信息,模型通过前面的文本预测下一个出现的单词。

2、监督微调

以人类写的专业且高质量的对话作为监督数据集训练基座模型,最后得到SFT模型。

3、训练奖励模型+强化学习训练

强化学习:

让模型在环境里采取行动,获得结果反馈,从反馈里学习,从而能在给定情况下采取最佳行动,来最大化奖励或最小化损失。

理想情况下是将问题抛给GPT,人类对GPT做出的回答进行打分,最终GPT根据打分优化模型。

打分一般基于3H原则:

但是人类打分成本高效率低,于是开发了一个奖励模型,能够对GPT生成的回答进行打分。

奖励模型

训练数据:让SFT模型对每个问题生成多个回答,让人类对多个回答进行比较排序。这些数据就可以作为奖励模型的训练数据了。

经过训练后,奖励模型就能够正确的预测出GPT每个回答的评分了。

最终,经过不断的强化学习训练,奖励模型不变,SFT模型不断优化权重参数,最终得到能够和人类进行对话的Chat GPT了。


http://www.ppmy.cn/devtools/158152.html

相关文章

Vue3(1)

一.create-vue // new Vue() 创建一个应用实例 > createApp() // createRouter() createStore() // 将创建实例进行了封装,保证每个实例的独立封闭性import { createApp } from vue import App from ./App.vue// mount 设置挂载点 #app (id为app的盒子) createA…

01docker run

docker run 用于从镜像创建并启动容器。下面是一些常用的选项: -d: 让容器在后台运行,即以守护进程模式运行。--name: 给容器指定一个名称,便于识别和管理。-p: 将宿主机的端口映射到容器内的端口,实现网络通信。-e: 设置环境变量…

SQL-leetcode—1393. 股票的资本损益

1393. 股票的资本损益 Stocks 表: ---------------------- | Column Name | Type | ---------------------- | stock_name | varchar | | operation | enum | | operation_day | int | | price | int | ---------------------- (stock_name, operation_day) 是这张…

C语言基础系列【9】常见存储类型介绍

博主介绍:程序喵大人 35- 资深C/C/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C20高级编程》《C23高级编程》等多本书籍著译者更多原创精品文章,首发gzh,见文末👇&#x1f…

嵌入式工程师面试经验分享与案例解析

嵌入式工程师岗位受到众多求职者的关注。面试流程严格,技术要求全面,涵盖C/C编程、数据结构与算法、操作系统、嵌入式系统开发、硬件驱动等多个方向。本文将结合真实案例,深入剖析嵌入式工程师的面试流程、常见问题及应对策略,帮助…

Spring中常见的设计模式

Spring框架是一个庞大的生态系统,设计模式的应用广泛分布在其各个模块中。以下是针对你提到的设计模式,在Spring源码中的具体应用位置: 单例模式(Singleton Pattern): 在org.springframework.beans.factory…

什么是动态路由和嵌套路由?

动态路由和嵌套路由是 Vue Router 中的两个重要概念,它们可以帮助构建复杂的单页应用程序(SPA)。以下是对这两个概念的详细解释: 一、动态路由 定义 动态路由是指根据特定条件或参数动态生成的路由。它允许你在运行时根据 URL 中的参数或其他条件加载不同的组件。 使用…

Office hour 1

涉及Python环境配置、深度学习框架安装、常用数据处理和分析库、以及Python IDE的选择等内容。 1. Anaconda 安装与配置 • Anaconda Individual Edition:Anaconda 是一个开源平台,旨在简化数据科学的工作流程,提供了 Python 和超过 150 个科…