Wombat:93%ChatGPT性能!无需RLHF就能对齐人类的语言模型

news/2024/11/25 3:43:53/

eb79a0e99151742675c1cb4b7f937d8e.png

文 | zzy

文章地址:
https://arxiv.org/abs/2304.05302v1

训练代码:
https://github.com/GanjinZero/RRHF

模型权重:
https://huggingface.co/GanjinZero/wombat-7b-delta

文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为得分模型,开发了语言模型Wombat-7BWombat-7B-GPT4Wombat-7B在Vicuna的部分测试集上(因没有GPT4 API,无法完整测试),可以达到ChatGPT 93% 的性能。其中GPT-4给ChatGPT的回复平均打了8.5分,而给Wombat-7B平均打了7.9分。

OpenAI的chatGPT理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。chatGPT令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。RLHF方法不同于以往传统的监督学习的微调方式,该方法使用强化学习的方式对LLM进行训练。RLHF解锁了语言模型跟从人类指令的能力,并且使得语言模型的能力和人类的需求和价值观对齐。

当前研究RLHF的工作主要使用PPO算法对语言模型进行优化。PPO算法包含有众多的超参数,并且在算法迭代的过程中需要多个独立模型的相互配合,错误的实现细节都会导致不好的训练结果

2962c7725391aa986198a27d1fef962b.png

在和人类对齐的角度上,强化学习算法是不是必须的呢?来自阿里巴巴达摩院的作者们提出了不需要强化学习的基于排序的人类偏好对齐方法,它对不同语言模型生成的回复(可以是ChatGPT、GPT-4或者当前的训练模型)进行评分,并通过排名损失使它们与人类偏好对齐。不同于PPO,RRHF的训练过程可以利用人类专家或者GPT4的输出作为对比。RRHF训练好的模型可以同时作为生成语言模型和奖励模型使用。

Playgound AI的CEO Suhail表示这是最近最令他兴奋的一篇论文。

1b69d1cd0537d084a787c7357b388d76.png

下图中对比了PPO算法和RRHF算法的区别。

048fc185a5e55cb1dafcc83d74585112.png

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 只需要12个模型。相比之下,PPO需要4个模型。

  • 监督微调(SFT)可以看做是他的一种特殊形式,超参数很少

  • 他可以同时直接作为一个语言模型和一个奖励模型使用

  • 他以相当低的训练难度就可以拟合奖励模型的偏好,达到PPO的效果

袋熊Wombat作为新的开源预训练模型可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。作者也在Huggingface放出了WomBat的权重,来供大家尝试。以下是袋熊Wombat给大家的一个自我介绍。

  • Give an introduction of wombat

  • Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.

005bec52fd1c0de5642bcfbf8e295012.png

链接:
https://huggingface.co/GanjinZero/wombat-7b-delta

3d2288a285d56ef47a0ab65f6ed54822.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群


http://www.ppmy.cn/news/43231.html

相关文章

CAN 发展史

一、起源 1986 年 2 月 Robert Bosch 公司在 SAE 汽车工程协会 大会上介绍了一种新型的串行总线 CAN控制器局域网,那是 CAN 诞生的时刻。今天,在欧洲几乎每一辆新客车均装配有 CAN 局域网。同样,CAN也用于其他类型的交通工具,从火…

学会了selenium 模拟鼠标操作,你就可以偷懒点点点了

目录:导读 前言 01.ActionChains 类常用方法 02.ActionChains 类所有方法 03.ActionChains 使用步骤 04.实战 05.总结 前言 我们在做 Web 自动化的时候,有时候页面的元素不需要我们点击,值需要把鼠标移动上去就能展示各种信息。 这个…

CDH 之 Kerberos 安全认证和 Sentry 权限控制管理(一)

一、Kerberos 和 Sentry 概述 1.1 什么是 Kerberos Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,…

信息系统项目管理师-项目成本管理

1.过程 1.1 规划成本管理 确定如何估算、预算、管理、监督和控制项目成本的过程。 1.2 估算成本 对完成项目工作所需资源成本近似估算的过程。 1.3 制定预算 汇总所有单个活动或工作包的估算成本,建立一个经批准的成本基准的过程。 1.4 控制成本 监督项目状态&#…

FlowForge 使用教程 团队资源管理

前言 本篇文章结合FF的操作来给大家解释一下,FF在团队管理上都与那些资源可以操作。 团队创建 使用超管第一次登录FF平台,默认什么资源都没有,你只能先去创建一个团队才能继续往下操作。 在FF平台上,团队就代表一个租户,也是一种资源隔离的手段。 创建团队可以通过右上…

解决Android Studio测试报错Could not find method test() for arguments

文章目录问题描述解决办法笔者报错时的运行环境: Android Studio Electric Eel | 2022.1.1 Patch 2 Gradle 8.0.1 JDK 17 JUnit 5.9.2 或 TestNG 7.7.1 单元测试 问题描述 笔者在 Android Studio 界面内运行单元测试时,踩坑无数。 首先&#xff0…

一键构建分布式云原生平台

目录专栏导读一、分布式云原生平台1、应用无所不能2、运行无处不在3、服务千行白业二、分布式云原生平台关键要素1、统一应用管理2、统一流量自治3、统一数据管理4、统一运维三、多云多集群已经广泛应用四、分布式云的优势:1、避免厂商锁定2、满足合规化要求3、增强…

系统复杂度之【高可用】

接着,我们聊聊复杂度的第二个要求高可用。 参考维基百科,先来看看高可用的定义。 系统无中断地执行其功能的能力,代表系统的可用性程度,是进行系统设计时的准则之一。 这个定义的关键在于“ 无中断”,但恰好难点也在“…