NLP论文速读(EMNLP2024)|多风格可控生成的动态多奖励权重

ops/2024/11/28 8:59:06/

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

论文信息:

图片

简介:

      本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式性)和作者的情绪或态度(例如厌恶)。

      随着大型语言模型(LLMs)的能力增强和受欢迎程度提高,对LLMs输出风格进行细粒度控制的需求日益增长。然而,如何在生成文本时将目标风格编织在一起,例如产生既负面又无毒的文本,是一个开放性问题。

      本文提出使用多目标强化学习(RL)作为控制生成的一种方法,但如何最好地在奖励函数中结合多个目标是一个未解决的问题。

      本文的动机在于实际文本中通常不仅包含单一风格,而是风格的组合。例如,在工作场合给同事提供反馈时,可能需要同时使用正式和积极的风格。

      此外,为了响应用户偏好或应用需求,LLM可能需要同时控制其他属性,如幽默、正式性或比喻语言的使用。因此,需要一种可靠的多风格控制技术来实现这些目标。

论文方法:

图片

      本文提出了一种动态多奖励加权方法,用于多风格可控生成。该方法涉及以下几个关键步骤:

      1)预训练语言模型使用LLaMA2 7B作为基模型,针对情感、正式性、讽刺、情绪和毒性训练判别器。

      2)强化学习(RL)框架:将生成语言模型视为一个策略网络,该策略网络是一个在给定状态下决定下一步行动的概率分布。

      3)多奖励控制公式:提出了多种结合多个风格判别器输出的方法,包括对数几率(Logits)、softmax、二值化(Binarized)、校准对数几率(Calibrated Logit scores)和动态加权(Dynamic Weighting)。其中,动态加权方法通过考虑每个判别器的梯度大小来加权结果,以此作为奖励函数的一部分。

      4)微调:使用PPO算法对语言模型进行微调,以最大化期望奖励值。

      5)实验设置:包括基模型、判别器训练、RL训练和评估集的详细配置。

      6)评估:基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估,包括自动评估和人类评估。

论文实验:

图片

      根据Table 3,我们可以了解到论文中的实验部分主要关注了不同奖励公式对于模型生成文本的风格控制和生成质量的影响。

      实验比较了五种不同的奖励公式:SoftmaxCalibrated SoftmaxLogitsBinary 和 Dynamic Weighting

      这些奖励公式被用来训练模型以生成具有特定风格的文本,特别是结合了负面(Negative)和非正式(Informal)风格的文本。

      Softmax在负面和非正式风格的控制上表现最差,尤其是在同时控制两种风格时。

      Calibrated Softmax通过校准技术提高了风格判别器的置信度,但在风格控制上提升有限。

      Logits在风格控制上表现较好,但以牺牲生成质量为代价,生成的文本困惑度高,不够流畅。

      Binary在风格控制上表现不错,同时保持了较低的二元组重复率,表明生成的文本较为多样化。

      Dynamic Weighting(动态加权)在所有指标上表现最佳,不仅在风格控制上优于其他方法,同时保持了较低的困惑度和二元组重复率,表明生成的文本既符合目标风格,又保持了较高的语言质量。

论文链接:

https://arxiv.org/abs/2402.14146


http://www.ppmy.cn/ops/137311.html

相关文章

深入解析下oracle char和varchar2底层存储方式

oracle数据库中,char和varchar2数据类型用来存储字符数据。char类型一旦定义多大,那么它就分配多少字节空间;varchar2类型定义多大,代表它可以扩展的最大大小为多大,一开始空间根据使用来决定。字符数据存储在oracle表…

Hot100 - 除自身以外数组的乘积

Hot100 - 除自身以外数组的乘积 最佳思路: 此问题的关键在于通过两次遍历,分别计算从左侧和右侧开始的累积乘积,以此避免使用额外的除法操作。 时间复杂度: 该算法的时间复杂度为 O(n),因为我们只需要遍历数组两次。…

【风水】-- 如何挑选吉日入住

目录 1. 五行与方位的配合 2. 八卦与方位的搭配 3. 选择吉日的原则 4. 阴阳与天干地支的匹配 5. 选择吉日的具体步骤 6. 个人八字与吉日的结合 总结 挑选入住新房或旧房的吉日是风水学中的一项重要传统,旨在通过选择合适的时机来调整和增强居住者的运势。从风…

【漏洞复现】CVE-2022-24697

漏洞信息 NVD - CVE-2022-24697 Kylin’s cube designer function has a command injection vulnerability when overwriting system parameters in the configuration overwrites menu. RCE can be implemented by closing the single quotation marks around the parameter…

理解并使用Linux内核XArray

理解并使用Linux内核XArray 1. 引言 大家好,今天咱们来聊聊Linux内核中的一个强大工具——XArray。如果你对数据结构感兴趣,或者正在开发内核模块,那么这篇文章绝对适合你。我会尽量用轻松幽默的方式带你走进XArray的世界。 2. XArray简介…

java——spring中事务怎么实现的?原理是什么?

在Spring框架中,事务管理是一个核心功能,它提供了两种主要的事务实现方式:声明式事务和编程式事务。下面分别介绍这两种实现方式及其底层原理。 一、Spring事务的实现方式 声明式事务 声明式事务管理通过注解或XML配置的方式,将事…

第十三章 使用 DHCP 动态管理主机地址

1. 动态主机配置协议 动态主机配置协议(DHCP)是一种基于 UDP 协议且仅限于在局域网内部使用的网络协议,主要用于大型的局域网环境或者存在较多移动办公设备的局域网环境中,用途是为局域网内部的设备或网络供应商自动分配 IP 地…

【Leetcode Top 100】240. 搜索二维矩阵 II

问题背景 编写一个高效的算法来搜索 m n m \times n mn矩阵 m a t r i x matrix matrix中的一个目标值 t a r g e t target target。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 数据约束 m m a t r i x . l e n g t h m …