吴恩达RLHF课程笔记

吴恩达RLHF课程笔记

news/2024/10/18 8:33:21/

1.创建偏好数据集

一个prompt输入到LLM后可以有多个回答，对每个回答选择偏好

比如{prompt,answer1,answer2,prefer1}

2.根据这个数据集（偏好数据集），创建reward model，这个model也是一个LLM,并且它是回归模型，返回的是对每个answer的score，loss是最大化winning candidate和losing candidate的score。训练结束后我们输入一个prompt（使用prompt数据集，这个数据集和偏好数据集分布要一致）和对应的answer,会得到一个score,显示的是这个answer有多好（有多符合标记数据的人的偏好）

3.利用这个reward model和强化学习循环调整LLM（通过PPO），还会添加惩罚项

首次运行pipeline的时候使用一个比较小的数据集确定它能用就行

Kl_coeff 是正则项，防止LLM对某些词汇有较高的score从而使产生的answer充满那些词汇 kl loss反应模型有多么偏离最初（应该先升高然后趋于平稳，reward曲线也是，如果没有趋于平稳就说明欠拟合了，如果过早平稳，说明应该减少step或者epoch）

选择合适的指标

sidebyside 可以用pandas把prompt,naïve completion, tuned completion进行可视化对比

RLAIF让AI生成偏好数据集，AutoSxS用AI进行sidebyside评估

http://www.ppmy.cn/news/1279101.html

相关文章

C#中使用OpenCV的常用函数

C#中使用OpenCV的常用函数

以下是一些C#中使用OpenCV的常用函数例子： 1. 加载图像： using OpenCvSharp;Mat image Cv2.ImRead("path_to_your_image.jpg", ImreadModes.Color); 2. 显示图像： Cv2.NamedWindow("Image Window", WindowFlags.Nor…

阅读更多...

【大数据】NiFi 中的 Controller Service

【大数据】NiFi 中的 Controller Service

NiFi 中的 Controller Service 1.Service 简介1.1 Controller Service 的配置1.1.1 SETTING 基础属性1.1.2 PROPERTIES 使用属性1.1.3 COMMENT 页签 1.2 Service 的使用范围 2.全局参数配置3.DBCPConnectionPool 的使用样例4.在 ExcuseGroovyScript 组件中使用 Service 1.Servi…

阅读更多...

多级缓存:亿级流量的缓存方案

多级缓存:亿级流量的缓存方案

文章目录一.多级缓存的引入二.JVM进程缓存三.Lua语法入门四.多级缓存1.OpenResty2.查询Tomcat3.Redis缓存预热4.查询Redis缓存5.Nginx本地缓存6.缓存同步一.多级缓存的引入传统缓存的问题传统的缓存策略一般是请求到达Tomcat后，先查询Redis，如果未…

阅读更多...

YOLO同时对图片和标签进行重命名

YOLO同时对图片和标签进行重命名

import osimage_folder /path/to/image/folder # 图像文件夹路径 label_folder /path/to/label/folder # 标签文件夹路径image_files sorted(os.listdir(image_folder)) # 获取图像文件列表并排序 label_files sorted(os.listdir(label_folder)) # 获取标签文件列表并排…

阅读更多...

安装nodejs，配置环境变量并将npm设置淘宝镜像源

安装nodejs，配置环境变量并将npm设置淘宝镜像源

安装nodejs并将npm设置淘宝镜像源 1. 下载nodejs 个人不喜欢安装包，所以是下载zip包的方式。这里我下载的node 14解压包版本下载地址如下：https://nodejs.org/dist/v14.15.1/node-v14.15.1-win-x64.zip 想要其他版本的小伙伴去https://nodejs.org/di…

阅读更多...

Uniapp 开发 BLE

Uniapp 开发 BLE

BLE 低功耗蓝牙（Bluetooth Low Energy，或称Bluetooth LE、BLE，旧商标Bluetooth Smart），用于医疗保健、运动健身、安防、工业控制、家庭娱乐等领域。在如今的物联网时代下大放异彩，扮演者重要一环&#xff…

阅读更多...

论文阅读——llava

论文阅读——llava

Visual Instruction Tuning LLaVA 指令智能体分为两类：端到端的，通过LangChain[1]/LLM[35]协调各种模型的系统。数据集生成用GPT辅助生成的，具体不写了。模型结构： input image Xv LLM：Vicuna visual encoder&a…

阅读更多...

【uniapp小程序-生成二维码+多个图片文字合并一张图】

【uniapp小程序-生成二维码+多个图片文字合并一张图】

<canvas id"qrcode" canvas-id"qrcode" width"120" ></canvas><canvas canvas-id"shareCanvas" class"share-canvas"></canvas>#qrc…

阅读更多...

最新文章