NLP论文速读(ICML 2024)|面相对齐大语言模型的迁移和合并奖励模型方法

ops/2024/12/19 23:01:19/

论文速读|Transforming and Combining Rewards for Aligning Large Language Models

论文信息:

简介:

       本文探讨了如何使大型语言模型(LLMs)与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型,然后使用这个奖励模型来更新语言模型。这种方法的背景是,我们希望语言模型的输出具有某些期望的属性,例如有帮助、无害、真实或有创造性。然而,这种方法面临两个主要问题:奖励模型的单调变换如何影响对齐效果,以及如何将多个奖励模型结合起来以对齐到多个属性。

       本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为,对齐的目标是使模型输出符合特定属性的后验分布。因此,对齐到多个属性的目标是生成在所有属性上都“好”的输出样本。这种概率解释需要定义输出何时被认为是“好”的。在从偏好数据中学习的奖励模型的背景下,作者认为如果输出的奖励值大于某个特定于提示的参考值,则该输出是“好”的。

论文方法:

       本文提出了一种称为“LSC-变换”(log-sigmoid-centered transformation)的方法来变换奖励模型。这种方法包括以下步骤:

      对齐目标的形式化:首先定义对齐目标,即生成在特定属性上被认为是“好”的输出样本的分布。

      奖励变换:作者推导出一种自然的变换选择,即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性:

      强调改进表现不佳的输出:通过减少非常高奖励值的边际效用,鼓励模型改进表现不佳的提示,并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。

      奖励的合理聚合:通过将变换后的奖励求和来实现逻辑与(AND)操作,即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。

论文实验:

      Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFT(Supervised Finetuning)模型的胜率。

      评估策略包括:

      1)使用由PALM-2评估器判断的提示,比较对齐策略和随机SFT样本之间的胜率。

      2)使用T5-XXL评估器,与SFT分位数(帮助性为85%,无害性为95%)进行比较的胜率。

      结果显示,使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。

论文链接:

https://arxiv.org/pdf/2402.00742


http://www.ppmy.cn/ops/143307.html

相关文章

125. 耍杂技的牛 acwing 贪心算法

农民约翰的 N头奶牛(编号为 1..N)计划逃跑并加入马戏团,为此它们决定练习表演杂技。 奶牛们不是非常有创意,只提出了一个杂技表演: 叠罗汉,表演时,奶牛们站在彼此的身上,形成一个高…

计算机网络信息系统安全问题及解决策略

目 录 摘 要 前 言 一、计算机网络信息系统研究现状及安全技术 (一)计算机网络信息系统研究现状 (二)计算机网络信息系统全技术概述 二、计算机网络信息系统安全问题 (一)环境危害引发的安全问…

【算法】图论中DFS和BFS模板讲解

图论的解题模板和二叉树基本一致,都是在DFS和BFS基础上进行求解。 二叉树的DFS和BFS模板如下所示: public void DFSTree(TreeNode root){if(rootnull)return null;DFSTree(root.left);DFSTree(root.right); } public void BFSTree(TreeNode ro…

Javascript面试手撕常见题目(回顾一)

1.JS查找文章中出现频率最高的单词? 要在JavaScript中查找文章中出现频率最高的单词,你可以按照以下步骤进行操作: 将文章转换为小写:这可以确保单词的比较是大小写不敏感的。移除标点符号:标点符号会干扰单词的计数。将文章拆…

前端 下载文件时如何处理后端返回的 文件流

在前端,处理文件下载通常涉及到接受一个 文件流(Blob 或者 ArrayBuffer),然后将它转换成可以下载的链接。以下是实现前端文件下载并接受文件流的一些常见方法。 1. 使用 Blob 和 URL.createObjectURL 创建下载链接 假设后端返回…

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:电影院后台管理系统(前后端源码 + 数据库 sql 脚本)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 项目介绍 2.0 用户登录功能 3.0 用户管理功能 4.0 影院管理功能 5.0 电影管理功能 6.0 影厅管理功能 7.0 电影排片管理功能 8.0 用户评论管理功能 9.0 用户购票功…

Redis 数据备份与恢复

Redis 数据备份与恢复 1. 引言 Redis 作为一款高性能的键值数据库,被广泛应用于各种场景,如缓存、消息队列等。由于其重要性,对 Redis 数据进行定期备份是保证数据安全的关键措施。本文将详细介绍 Redis 数据的备份与恢复方法,确保在数据丢失或系统故障时能够迅速恢复。 …

开源FreeSWITCH大模型智能客服系统的最佳实践

开源 FreeSWITCH 大模型智能客服系统的最佳实践 原作者:开源呼叫中心FreeIPCC,其Github:https://github.com/lihaiya/freeipcc 引言 开源 FreeSWITCH 大模型智能客服系统因其灵活性、成本效益和技术先进性,成为众多企业提升客户…