Learning to summarize from human feedback

news/2024/12/23 1:31:47/

Abstract

  • 人工参考总结以及 ROUGE 指标只是我们真实关心的目标(总结质量)的粗略代表。
  • 通过优化人工偏好来显著提升总结质量
  • 使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
  • 使用这个模型作为奖励函数对总结策略进行强化学习微调
  • 我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型,并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似,他们也是训练 Transformer 模型来优化人工反馈。

  • 与我们不同的是,他们是以在线方式训练并且发现得到的模型是高度抽取式的。
  • 和他们相比,我们使用了更大的模型以批量化的方式收集人类反馈,并且做了一些算法上的修改
    • 例如分开策略和价值网络(separating the policy and value networks)。

人工偏好也在其他领域被作为奖励信号来训练模型,例如<


http://www.ppmy.cn/news/1390005.html

相关文章

【堆】Top-K问题

标题&#xff1a;C语言库函数scanf&#xff08;&#xff09;解读 水墨不写bug &#xff08;图片来源于网络&#xff09; 正文开始&#xff1a; Top-K问题是一类问题的统称&#xff1a; 即根据对象的某一属性&#xff0c;找出这个属性最突出的K个对象&#xff0c;并且通常对象…

java 继承(下)

前面我们已经说明了什么是继承&#xff1f;继承的好处弊端等&#xff0c;不清楚的可参照链接 java 继承&#xff08;上&#xff09;-CSDN博客 本篇文章主要理解 继承中变量&#xff0c;构造方法&#xff0c;成员方法的访问特点。 1、继承中变量的访问特点 1.1 代码实现 不看…

【项目经验】Redis Sentinel从工程中下线并对业务迁移-进行中

一、背景&#xff1a; 某天&#xff0c;接到DBA通知&#xff0c;Redis sentinel 只支持到3.2.X(这个命题有问题&#xff0c;往下翻&#xff0c;见彩蛋)&#xff0c;为节省运维成本&#xff0c;提升运维效率&#xff0c;决定将工程中使用的Redis sentinel下线&#xff0c;都使用…

前端性能优化:防抖与节流

一、防抖和节流主要是干什么的 防抖和节流主要用于控制函数执行的频率&#xff0c;通过限制函数的触发次数&#xff0c;避免函数被过度调用而引发的性能问题或产生不必要的副作用。 二、防抖 什么是防抖&#xff1a; 防抖的原理是在函数频繁触发时&#xff0c;只执行最后一…

c语言:汽车时代

汽车时代 任务描述 据说看车牌可以知道车辆归属地点&#xff0c;已知黑龙江省车牌归属地的基本规则是&#xff1a; 黑A: 哈尔滨 黑B: 齐齐哈尔 黑C: 牡丹江 黑D: 佳木斯 黑E: 大庆 黑F: 伊春 黑G: 鸡西 黑H: 鹤岗 黑J: 双鸭山 黑K: 七台河 黑L: 松花江地区 黑M: 绥化 黑N: 黑…

爬虫基础:HTTP基本原理

爬虫基础&#xff1a;HTTP基本原理 前言HTTP基本原理URI 和 URLHTTP 和 HTTPSHTTP 请求过程请求与响应HTTP请求HTTP响应请求与响应的交互过程 HTTP 2.0二进制传输多路复用Header压缩服务器端提前响应内容安全 前言 了解 HTTP的基本原理&#xff0c;了解从往测览器中输人 URL到获…

【go语言开发】性能分析工具pprof使用

本文主要介绍如何在项目中使用pprof工具。首先简要介绍pprof工具的作用&#xff1b;然后介绍pprof的应用场景&#xff0c;主要分为工具型应用和服务型应用。最后数据分析项目&#xff0c;先采集项目信息&#xff0c;再可视化查看 文章目录 前言应用场景工具型应用服务型应用 数…

Django分页器

Django分页器 分页器前瞻之url urls.py不需要做修改 urlpatterns [path(test/, views.test,nametest), ]假设此时在原有的路径http://127.0.0.1:8000/app01/test后面添加/?page2 然后再后端获取到page def test(request):page request.GET.get(page)print(page) # 2retu…