<论文>用于大语言模型去偏的因果奖励机制

devtools/2025/1/26 9:27:14/

一、摘要

        本文介绍由Meta和芝加哥大学合作发表的代码开源论文《Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment》,论文引入了一种将因果正则化纳入训练过程的奖励建模因果框架,使模型能够从虚假关系中学习 “真实” 因果关系,从而让模型生成结果更可靠地与人类偏好对齐。

译文:

        大型语言模型(LLMs)的最新进展在执行复杂任务方面取得了显著进步。虽然人类反馈强化学习(RLHF)在使 LLMs 与人类偏好对齐方面是有效的,但它容易受到奖励建模中的虚假相关性的影响。因此,它经常引入偏差,如长度偏差、谄媚、概念偏差和歧视,这些偏差阻碍了模型捕捉真实因果关系的能力。为了解决这个问题,我们提出了一种新颖的因果奖励建模方法,它整合了因果推理来减轻这些虚假相关性。我们的方法强制实施反事实不变性,确保在不相关变量改变时奖励预测保持一致。通过在合成数据集和真实数据集上的实验,我们表明我们的方法有效地减轻了各种类型的虚假相关性,从而使 LLMs 与人类偏好的对齐更加可靠和公平。作为对现有 RLHF 工作流程的即插即用增强,我们的因果奖励建模为提高 LLM 微调的可信度和公平性提供了一种实用的方法。

二、核心创新点

        在探讨论文创新点之前,我们首先需要了解如下两个概念。这里,令Z表示对应于虚假变异因素(例如长度)的随机变量,T表示包含提示-响应对(prompt-response pair)的随机变量:

  • 反事实不变性(counterfactual invariance):论文指出,理想的无偏奖励模型应该直观地对虚假的变化因素保持不变性。例如,为了消除长度偏差,奖励模型应该对响应长度的变化表现出不变性,为了形式化这个概念,学界定义为“反事实不变性”。
  • 因果分解:提示-响应对 T 可以根据它们与虚假因素 Z 的关系分解为潜在成分。具体来说,令定义为 T 的一个成分,它不受 Z 的因果影响。即,使得 T 的任何函数当且仅当它依赖于时对 Z 具有反事实不变性。

1、针对独立性的最大均值差异(MMD)正则化

        为了强制执行论文中所提到的独立性条件,作者采用了一种基于核的统计度量——MMD,用于量化两个概率分布之间的差异。形式上,给定两个分布,再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)中的平方MMD定义为:

        其中,F表示中的一类函数,是两个随机变量。直观地说,MMD测量由核k(·,·)确定的函数之间的最大平均差异。作者在论文中使用MMD作为正则化项,以确保学习到的奖励模型 f(T) 对于虚假变量 Z 是不变的,如果 Z 是二元的,则MMD正则化项定义为:

        当Z跨越一个大的或者连续的空间,例如响应长度时,直接应用MMD会在计算上变得复杂,因此作者将Z划分为M个离散的区间,并计算所有区间对之间的MMD。令表示区间索引,表示在区间b中的条件分布,正则化项被定义为:

        这种分区方法确保了MMD在高维或者连续设置中的适用性,同时保留了捕获Z变化的能力。论文中,表示提示-响应对T的隐含表示,奖励模型由参数参数化,并取决于,则:

        为了正则化,作者根据其虚假因子Z(例如响应长度)将所有响应映射到M个区间中。对于每个区间b,计算条件分布。结合奖励模型训练损失核基于MMD的正则化项的总体目标函数为:

        其中,是sigmoid函数,是MMD正则化项权重的超参数。这个公式通过惩罚虚假变量Z的区间中奖励预测的差异来强制实现反事实不变性,从而有效地引导了模型学习不变表示。

 


http://www.ppmy.cn/devtools/153351.html

相关文章

代理IP協議怎麼選?

在討論合適的代理IP協議之前,需要先瞭解常用的代理協議類型。這裏主要介紹三種:HTTP代理、HTTPS代理和SOCKS代理。 1. HTTP代理 HTTP代理主要用於Web流量轉發,適用於處理HTTP協議的數據傳輸。它的優勢在於速度快,適合普通網頁流…

go-基础之嵌入

嵌入 Go 语言没有提供典型的、基于类型驱动的子类化概念,但它能够通过在结构体或接口中嵌入类型来“借用”部分实现。 接口嵌入非常简单。我们之前提到过 io.Reader 和 io.Writer 接口,下面是它们的定义: type Reader interface {Read(p […

数据库基础知识:理论、E-R图、事务、原则

(5)数据库理论与E-R图 数据库理论(Database Theory)是在创建数据库的过程涉及创建现实世界的抽象模型;将现实世界的概念作为实体表示在数据库中。E-R图(Entity Relationship Diagramming)用于表…

1.24寒假作业

web:[GDOUCTF 2023]EZ WEB 打开环境让我们点击一下获得flag,显然是没用的,看一下源代码 提示我们访问一下src,访问一下可以得到一个python代码 理解一下:用户通过 GET 方法访问根路径时,返回index.html文件…

备赛蓝桥杯之第十五届职业院校组省赛第二题:分享点滴

提示:本篇文章仅仅是作者自己目前在备赛蓝桥杯中,自己学习与刷题的学习笔记,写的不好,欢迎大家批评与建议 由于个别题目代码量与题目量偏大,请大家自己去蓝桥杯官网【连接高校和企业 - 蓝桥云课】去寻找原题&#xff0…

Go的垃圾回收(GC)触发时机

Go 的垃圾回收(GC)触发时机 Go 语言的垃圾回收机制(GC)会在特定条件下自动触发,同时也支持手动触发。GC 的触发时机可以分为 系统触发 和 主动触发 两种情况。 1. 系统触发 系统触发是 Go 运行时根据内存使用情况和…

「 机器人 」利用电压偏移实现扑翼飞行器的俯仰力矩控制

前言 在扑翼飞行器中,通过在电机输入信号中引入电压偏移 并相应调节机翼运动的基准位置,可在俯仰方向产生有效的力矩。以下从原理、数学描述、硬件实现与实验验证等方面,阐述这一方法的具体过程和意义。 1. 俯仰力矩生成原理 1.1 机翼运动的基础 (1)独立电机驱动 • 左右…

2025美赛D题完整代码+建模过程

第一个问题是:“弗朗西斯斯科特基大桥的倒塌对巴尔的摩的交通系统产生了巨大的影响。您的网络模型显示了大桥倒塌和/或大桥重建的影响是什么?一定要强调对巴尔的摩及其周边各利益相关者的影响。” 针对“弗朗西斯斯科特基大桥的倒塌对巴尔的摩的交通系统产生了巨大的影响”这…