Learning to summarize from human feedback

Learning to summarize from human feedback

news/2024/12/23 1:31:47/

Abstract

人工参考总结以及 ROUGE 指标只是我们真实关心的目标（总结质量）的粗略代表。
通过优化人工偏好来显著提升总结质量
使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
使用这个模型作为奖励函数对总结策略进行强化学习微调
我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型，并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似，他们也是训练 Transformer 模型来优化人工反馈。

与我们不同的是，他们是以在线方式训练并且发现得到的模型是高度抽取式的。
和他们相比，我们使用了更大的模型，以批量化的方式收集人类反馈，并且做了一些算法上的修改
- 例如分开策略和价值网络（separating the policy and value networks）。

人工偏好也在其他领域被作为奖励信号来训练模型，例如<

http://www.ppmy.cn/news/1390005.html

相关文章

【堆】Top-K问题

【堆】Top-K问题

标题：C语言库函数scanf（）解读水墨不写bug （图片来源于网络） 正文开始： Top-K问题是一类问题的统称： 即根据对象的某一属性，找出这个属性最突出的K个对象，并且通常对象…

阅读更多...

java 继承（下）

java 继承（下）

前面我们已经说明了什么是继承？继承的好处弊端等，不清楚的可参照链接 java 继承（上）-CSDN博客本篇文章主要理解继承中变量，构造方法，成员方法的访问特点。 1、继承中变量的访问特点 1.1 代码实现不看…

阅读更多...

【项目经验】Redis Sentinel从工程中下线并对业务迁移-进行中

【项目经验】Redis Sentinel从工程中下线并对业务迁移-进行中

一、背景： 某天，接到DBA通知，Redis sentinel 只支持到3.2.X(这个命题有问题，往下翻，见彩蛋)，为节省运维成本，提升运维效率，决定将工程中使用的Redis sentinel下线，都使用…

阅读更多...

前端性能优化：防抖与节流

前端性能优化：防抖与节流

一、防抖和节流主要是干什么的防抖和节流主要用于控制函数执行的频率，通过限制函数的触发次数，避免函数被过度调用而引发的性能问题或产生不必要的副作用。二、防抖什么是防抖： 防抖的原理是在函数频繁触发时，只执行最后一…

阅读更多...

c语言：汽车时代

c语言：汽车时代

汽车时代任务描述据说看车牌可以知道车辆归属地点，已知黑龙江省车牌归属地的基本规则是： 黑A: 哈尔滨黑B: 齐齐哈尔黑C: 牡丹江黑D: 佳木斯黑E: 大庆黑F: 伊春黑G: 鸡西黑H: 鹤岗黑J: 双鸭山黑K: 七台河黑L: 松花江地区黑M: 绥化黑N: 黑…

阅读更多...

爬虫基础：HTTP基本原理

爬虫基础：HTTP基本原理

爬虫基础：HTTP基本原理前言HTTP基本原理URI 和 URLHTTP 和 HTTPSHTTP 请求过程请求与响应HTTP请求HTTP响应请求与响应的交互过程 HTTP 2.0二进制传输多路复用Header压缩服务器端提前响应内容安全前言了解 HTTP的基本原理，了解从往测览器中输人 URL到获…

阅读更多...

【go语言开发】性能分析工具pprof使用

【go语言开发】性能分析工具pprof使用

本文主要介绍如何在项目中使用pprof工具。首先简要介绍pprof工具的作用；然后介绍pprof的应用场景，主要分为工具型应用和服务型应用。最后数据分析项目，先采集项目信息，再可视化查看文章目录前言应用场景工具型应用服务型应用数…

阅读更多...

Django分页器

Django分页器

Django分页器分页器前瞻之url urls.py不需要做修改 urlpatterns [path(test/, views.test,nametest), ]假设此时在原有的路径http://127.0.0.1:8000/app01/test后面添加/?page2 然后再后端获取到page def test(request):page request.GET.get(page)print(page) # 2retu…

阅读更多...

最新文章