NLP论文速读(EMNLP2024)|多风格可控生成的动态多奖励权重

embedded/2024/11/29 3:35:02/

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

论文信息:

图片

简介:

      本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式性)和作者的情绪或态度(例如厌恶)。

      随着大型语言模型(LLMs)的能力增强和受欢迎程度提高,对LLMs输出风格进行细粒度控制的需求日益增长。然而,如何在生成文本时将目标风格编织在一起,例如产生既负面又无毒的文本,是一个开放性问题。

      本文提出使用多目标强化学习(RL)作为控制生成的一种方法,但如何最好地在奖励函数中结合多个目标是一个未解决的问题。

      本文的动机在于实际文本中通常不仅包含单一风格,而是风格的组合。例如,在工作场合给同事提供反馈时,可能需要同时使用正式和积极的风格。

      此外,为了响应用户偏好或应用需求,LLM可能需要同时控制其他属性,如幽默、正式性或比喻语言的使用。因此,需要一种可靠的多风格控制技术来实现这些目标。

论文方法:

图片

      本文提出了一种动态多奖励加权方法,用于多风格可控生成。该方法涉及以下几个关键步骤:

      1)预训练语言模型使用LLaMA2 7B作为基模型,针对情感、正式性、讽刺、情绪和毒性训练判别器。

      2)强化学习(RL)框架:将生成语言模型视为一个策略网络,该策略网络是一个在给定状态下决定下一步行动的概率分布。

      3)多奖励控制公式:提出了多种结合多个风格判别器输出的方法,包括对数几率(Logits)、softmax、二值化(Binarized)、校准对数几率(Calibrated Logit scores)和动态加权(Dynamic Weighting)。其中,动态加权方法通过考虑每个判别器的梯度大小来加权结果,以此作为奖励函数的一部分。

      4)微调:使用PPO算法对语言模型进行微调,以最大化期望奖励值。

      5)实验设置:包括基模型、判别器训练、RL训练和评估集的详细配置。

      6)评估:基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估,包括自动评估和人类评估。

论文实验:

图片

      根据Table 3,我们可以了解到论文中的实验部分主要关注了不同奖励公式对于模型生成文本的风格控制和生成质量的影响。

      实验比较了五种不同的奖励公式:SoftmaxCalibrated SoftmaxLogitsBinary 和 Dynamic Weighting

      这些奖励公式被用来训练模型以生成具有特定风格的文本,特别是结合了负面(Negative)和非正式(Informal)风格的文本。

      Softmax在负面和非正式风格的控制上表现最差,尤其是在同时控制两种风格时。

      Calibrated Softmax通过校准技术提高了风格判别器的置信度,但在风格控制上提升有限。

      Logits在风格控制上表现较好,但以牺牲生成质量为代价,生成的文本困惑度高,不够流畅。

      Binary在风格控制上表现不错,同时保持了较低的二元组重复率,表明生成的文本较为多样化。

      Dynamic Weighting(动态加权)在所有指标上表现最佳,不仅在风格控制上优于其他方法,同时保持了较低的困惑度和二元组重复率,表明生成的文本既符合目标风格,又保持了较高的语言质量。

论文链接:

https://arxiv.org/abs/2402.14146


http://www.ppmy.cn/embedded/141342.html

相关文章

如何配置 Gitea 的邮箱功能

在配置 Gitea 时,邮件服务的设置是必不可少的,尤其是在需要注册确认、通知提醒等功能时。本文将详细介绍如何在 Gitea 中配置邮件功能,以确保您的系统能够正确发送邮件。 一、找到 Gitea 的配置文件 Gitea 的邮箱配置通常位于 app.ini 文件…

ffmpeg.js视频播放(转换)

chrome 临时设置SharedArrayBuffer "C:\Program Files\Google\Chrome\Application\chrome.exe" --enable-featuresSharedArrayBuffer 引用的js及相关文件 ffmpeg.min.js ffmpeg.min.js.map ffmpeg-core.js ffmpeg-core.wasm ffmpeg-core.worker.js 以上几个现…

SpringMVC-03-HelloSpring

3. HelloSpring 3.1. 配置版 新建一个Moudle &#xff0c; springmvc-02-hello &#xff0c; 添加web的支持&#xff01;确定导入了SpringMVC 的依赖&#xff01;配置web.xml &#xff0c; 注册DispatcherServlet <?xml version"1.0" encoding"UTF-8&quo…

【组件封装】uniapp vue3 封装一个自定义下拉刷新组件pullRefresh,带刷新时间和加载动画教程

文章目录 前言一、实现原理二、组件样式和功能设计三、scroll-view 自定义下拉刷新使用回顾相关属性&#xff1a;最终版完整代码&#xff1a; 前言 手把手教你封装一个移动端 自定义下拉刷新组件带更新时间和加载动画&#xff08;PullRefresh&#xff09;&#xff0c;以uniapp …

能源电力企业安全数据内外网文件交换

在数字化浪潮的推动下&#xff0c;能源电力行业数据交换的频率急剧上升&#xff0c;涉及的视频、研发、设计等各类文件数量庞大。这些文件的内外网传输不仅要追求速度&#xff0c;更要确保数据安全。随着国家对数据安全重视程度的提高&#xff0c;《网络安全法》和《数据安全法…

【SpringBoot】28 API接口防刷(Redis + 拦截器)

Gitee仓库 https://gitee.com/Lin_DH/system 介绍 常用的 API 安全措施包括&#xff1a;防火墙、验证码、鉴权、IP限制、数据加密、限流、监控、网关等&#xff0c;以确保接口的安全性。 常见措施 1&#xff09;防火墙 防火墙是网络安全中最基本的安全设备之一&#xff0c…

arm rk3588 onnx转rknn

一、环境部署&#xff1a; https://github.com/airockchip/rknn_model_zoo/tree/main/examples/yolo11 从该网址下载yolo11的模型。支持80种类型检测 二、下载模型 进入examples/yolo11/model文件夹&#xff0c;执行 ./download_model.sh 如图&#xff1a; 三、模型转换…

Vue.js 中 v-for 指令与 JavaScript 数组方法

简介 在 Vue.js 中&#xff0c;v-for 指令是渲染列表数据的利器。它能够让你轻松地根据数组或对象渲染一个列表。本文将首先展示 v-for 的基本用法&#xff0c;然后详细介绍 JavaScript 数组的常用方法&#xff0c;并提供示例&#xff0c;展示如何在 Vue.js 应用中操作数组。 …